獎勵函數 是什麼?

Reward Function — 獎勵函數 的完整解釋

獎勵函數是強化學習中定義代理在特定狀態下採取特定動作後獲得的獎勵的函數,用於引導代理學習期望行為。

容易混淆

獎勵函數 vs 損失函數

獎勵函數是越高越好 損失函數是越低越好 最關鍵的區別是最大化還是最小化。

獎勵函數 vs 獎勵建模

獎勵函數是評分規則 獎勵建模是學出這個評分規則 最關鍵的區別是規則本身還是規則的來源。

記住這句就好

先定義什麼叫好,再讓模型去追分。

實際案例

送餐機器人 如果只獎勵速度,機器人可能亂衝,所以通常要把安全和準時一起放進獎勵函數。

遊戲 AI 打怪加分、死亡扣分、達成任務再加分,這些都會影響最後學到的策略。

算法與應用

好的獎勵函數要盡量貼近真正目標,否則模型會學會鑽漏洞。 獎勵稀疏時,模型很難知道哪一步有用,通常要靠獎勵塑形。 在實務上,獎勵設計常比演算法本身更難。

情境判斷

Q1(直覺題):如果模型只顧著拿高分,卻做出不安全動作,問題多半出在哪裡?

→ 多半出在獎勵函數設計不完整。

Q2(判斷題):把所有你想要的行為都加進獎勵函數,就一定比較好嗎?

→ 不一定。太多條件可能互相衝突,讓模型不知道該優先追哪一個目標。

相關術語

常見問題

什麼是獎勵塑形?

A:就是把原本很難拿到的最終獎勵,拆成途中也能得到的小獎勵。

為什麼有時候要避免太密的獎勵?

A:因為模型可能只學會追每一步的小分數,反而忽略真正目標。

獎勵函數和人類價值有什麼關係?

A:如果獎勵函數沒有對齊人類真正想要的結果,模型就可能學偏。