---
title: "強化學習（Reinforcement Learning）"
slug: reinforcement-learning
language: zh-TW
source: https://aiterms.tw/terms/reinforcement-learning
updated_at: 2026-04-29
tags: [強化學習, 模型訓練, AI基礎, AI應用]
ipas_term: true
---

# 強化學習（Reinforcement Learning）

> **你在玩遊戲或調整自動系統時，會不會發現它不是看標準答案，而是在試錯中越做越準？**
>
> 你可以把強化學習想成小孩拿零用錢做選擇，做對就得到獎勵，做錯就少一點，AI 也是靠這種回饋慢慢學會該怎麼做。
>
> 它重要是因為很多任務沒有唯一正解，像下棋、導航、排程，都要看長期結果，不是只看當下那一步對不對。

### 容易混淆

> **強化學習 vs 監督式學習**
>
> 強化學習靠獎勵和懲罰試錯
> 監督式學習靠有答案的標籤學習
> 最關鍵的區別是有沒有現成正解。
>
> **強化學習 vs 自我對弈**
>
> 強化學習是整個學習框架
> 自我對弈是用自己跟自己比賽來產生資料的方法
> 最關鍵的區別是框架和訓練手法不同。
>

### 記住這句就好

> 沒有標準答案時，看長期回報，就用強化學習。

### 實際案例

> **遊戲 AI 練等**
> 遊戲角色每一步都拿到分數或扣分，最後學會怎麼走位、怎麼出招，這就是強化學習最典型的場景。
>
> **機器人走迷宮**
> 機器人每次撞牆就扣分，接近出口就加分，跑久了之後會慢慢學會走最短路。
>

### 算法與應用

> 核心元素通常是狀態、動作、獎勵、策略，模型要學的是在不同狀態下該做什麼動作。
> 探索與利用是關鍵矛盾，太愛嘗試會浪費時間，太快固定答案又可能錯過更好的路。
> 在實務上，DQN、Policy Gradient、Actor-Critic 都是常見做法，差別在於怎麼估計價值和更新策略。

### 情境判斷

> **Q1（直覺題）：一個模型在棋類遊戲中，贏一局就加分、輸一局就扣分，這種學習方式屬於什麼？**
>
> → 這是強化學習，因為模型不是看標準答案，而是根據回饋慢慢調整策略。
>
> **Q2（判斷題）：如果每一步都能立刻知道正確答案，還適合用強化學習嗎？**
>
> → 通常不優先。這種情況更像監督式學習，因為標籤已經存在，直接學對錯通常更快更穩。
>

### iPAS 考題

> **Q：iPAS 常怎麼考強化學習？**
> A：通常會考名詞辨義和基本流程，例如狀態、動作、獎勵各代表什麼，或是 DQN 為什麼能處理較複雜的狀態空間。
>

### 常見問題

> **Q：獎勵函數設計錯了會怎樣？**
> A：模型可能學到你不想要的行為，因為它只會最大化分數，不會自己理解你的真正目的。
>
> **Q：DQN 在強化學習裡做什麼？**
> A：DQN 用深度神經網路近似 Q 值，讓模型可以處理更大的狀態空間。
>
> **Q：自動駕駛為什麼常被拿來討論強化學習？**
> A：因為它要同時顧安全、效率和舒適，還要在長期回報下做決策，很適合拿來說明強化學習的難點。
>

### 相關術語

> - **AI 代理**：先讀它，會更容易理解強化學習怎麼落到代理系統。
> - **獎勵函數**：它是強化學習最直接的分數來源，兩者一定一起看。
> - **獎勵建模**：先看這個，再回頭看獎勵函數，會更懂偏好怎麼變成分數。
> - **人類回饋強化學習**：它是把人類偏好接進模型的完整流程。
> - **自我對弈**：它是強化學習裡很常見的資料生成方法。

---

來源：https://aiterms.tw/terms/reinforcement-learning
快查頁：https://aiterms.tw/terms/reinforcement-learning
外部參考：https://ipd.nat.gov.tw/ipas/certification/AIAP/news/ffdba0fcdbda40baadeef2a1bdc0230e
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-reinforcement-learning