強化學習 是什麼?
Reinforcement Learning — 強化學習 的完整解釋
強化學習是一種讓 AI 透過與環境互動,從獎勵和懲罰中學習,進而找到最佳行動策略的方法
容易混淆
強化學習 vs 監督式學習
強化學習靠獎勵和懲罰試錯 監督式學習靠有答案的標籤學習 最關鍵的區別是有沒有現成正解。
強化學習 vs 自我對弈
強化學習是整個學習框架 自我對弈是用自己跟自己比賽來產生資料的方法 最關鍵的區別是框架和訓練手法不同。
記住這句就好
沒有標準答案時,看長期回報,就用強化學習。
實際案例
遊戲 AI 練等 遊戲角色每一步都拿到分數或扣分,最後學會怎麼走位、怎麼出招,這就是強化學習最典型的場景。
機器人走迷宮 機器人每次撞牆就扣分,接近出口就加分,跑久了之後會慢慢學會走最短路。
算法與應用
核心元素通常是狀態、動作、獎勵、策略,模型要學的是在不同狀態下該做什麼動作。 探索與利用是關鍵矛盾,太愛嘗試會浪費時間,太快固定答案又可能錯過更好的路。 在實務上,DQN、Policy Gradient、Actor-Critic 都是常見做法,差別在於怎麼估計價值和更新策略。
情境判斷
Q1(直覺題):一個模型在棋類遊戲中,贏一局就加分、輸一局就扣分,這種學習方式屬於什麼?
→ 這是強化學習,因為模型不是看標準答案,而是根據回饋慢慢調整策略。
Q2(判斷題):如果每一步都能立刻知道正確答案,還適合用強化學習嗎?
→ 通常不優先。這種情況更像監督式學習,因為標籤已經存在,直接學對錯通常更快更穩。
強化學習 在 iPAS 考試中的重點
根據歷年統計,強化學習 相關題目 平均佔 AI 技術類考題 7%, 屬於高頻考範圍。
常見出題方向:各類學習範式的定義與比較(45%)、適用場景判斷(35%)、演算法優缺點分析(20%)。
相關術語
常見問題
獎勵函數設計錯了會怎樣?
A:模型可能學到你不想要的行為,因為它只會最大化分數,不會自己理解你的真正目的。
DQN 在強化學習裡做什麼?
A:DQN 用深度神經網路近似 Q 值,讓模型可以處理更大的狀態空間。
自動駕駛為什麼常被拿來討論強化學習?
A:因為它要同時顧安全、效率和舒適,還要在長期回報下做決策,很適合拿來說明強化學習的難點。
資料來源
- iPAS AI 應用規劃師評鑑內容範圍參考(115.02) — 經濟部產業人才能力鑑定