自我對弈是什麼？

Self-play — 自我對弈的完整解釋

自我對弈是一種強化學習技術，其中智能體與自身的副本進行對弈，從而學習和改進策略，無需外部人類或標記數據。

自我對弈 vs 監督式學習

自我對弈從對局結果學習監督式學習從標準答案學習最關鍵的區別是有沒有人工標籤。

自我對弈 vs 一般強化學習

自我對弈的對手也是自己一般強化學習的環境不一定是自己最關鍵的區別是資料來源是不是由自己生成。

沒有現成對手，就自己生一個對手。

棋類 AI AlphaGo 類系統會反覆跟自己下棋，讓策略越來越強。

策略模擬 在博弈或談判任務裡，自我對弈可以快速產生大量對戰資料。

自我對弈常搭配策略更新、勝率比較和版本回放。它能加速探索，但也可能讓模型過度適應自己的對手。因此通常要定期引入新對手或不同版本，避免只跟自己繞圈。

Q1（直覺題）：如果兩個 AI 版本自己互打來產生資料，這是什麼？

→ 這就是自我對弈。

Q2（判斷題）：自我對弈只要一直跑下去，就一定越來越強嗎？

→ 不一定。它可能會過度適應自己的對手，所以要不斷引入新的變化。

常見問題

A：自我對弈把對手也放進學習迴圈，資料很多時特別有用。

A：看任務複雜度和算力，簡單任務可能很快，複雜博弈則可能很久。

A：會，所以通常要搭配版本輪替和外部測試。