---
title: "自我對弈（Self-play）"
slug: self-play
language: zh-TW
source: https://aiterms.tw/terms/self-play
updated_at: 2026-04-29
tags: [強化學習, 模型訓練, 最佳化, AI基礎, 機器學習, 神經網路, AI應用]
ipas_term: false
---

# 自我對弈（Self-play）

> **你有沒有想過，AI 如果沒有對手，也可以自己跟自己練？**
>
> 你可以把自我對弈想成一個玩家和自己的分身一直比賽，從對局裡慢慢變強。
>
> 它重要是因為有些任務很難收集高品質資料，自我對弈可以自己長出訓練資料。
>
> 你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

### 容易混淆

> **自我對弈 vs 監督式學習**
>
> 自我對弈從對局結果學習
> 監督式學習從標準答案學習
> 最關鍵的區別是有沒有人工標籤。
>
> **自我對弈 vs 一般強化學習**
>
> 自我對弈的對手也是自己
> 一般強化學習的環境不一定是自己
> 最關鍵的區別是資料來源是不是由自己生成。
>

### 記住這句就好

> 沒有現成對手，就自己生一個對手。

### 實際案例

> **棋類 AI**
> AlphaGo 類系統會反覆跟自己下棋，讓策略越來越強。
>
> **策略模擬**
> 在博弈或談判任務裡，自我對弈可以快速產生大量對戰資料。
>

### 算法與應用

> 自我對弈常搭配策略更新、勝率比較和版本回放。
> 它能加速探索，但也可能讓模型過度適應自己的對手。
> 因此通常要定期引入新對手或不同版本，避免只跟自己繞圈。

### 情境判斷

> **Q1（直覺題）：如果兩個 AI 版本自己互打來產生資料，這是什麼？**
>
> → 這就是自我對弈。
>
> **Q2（判斷題）：自我對弈只要一直跑下去，就一定越來越強嗎？**
>
> → 不一定。它可能會過度適應自己的對手，所以要不斷引入新的變化。
>

### 常見問題

> **Q：自我對弈和傳統強化學習有何不同？**
> A：自我對弈把對手也放進學習迴圈，資料很多時特別有用。
>
> **Q：自我對弈需要多久？**
> A：看任務複雜度和算力，簡單任務可能很快，複雜博弈則可能很久。
>
> **Q：自我對弈會不會過擬合？**
> A：會，所以通常要搭配版本輪替和外部測試。
>

### 相關術語

> - **強化學習**：讀完這個，再回來看主題會更完整。
> - **演員-評論家**：自我對弈和強化學習常會和它一起出現。
> - **馬可夫決策過程**：先讀這個，強化學習的形式化才完整。
> - **探索與利用**：自我對弈和強化學習都繞不開它。
> - **獎勵函數**：它是強化學習最直接的分數來源，兩者一定一起看。

---

來源：https://aiterms.tw/terms/self-play
快查頁：https://aiterms.tw/terms/self-play
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-self-play