RF（獎勵函數）是什麼？完整定義與解說

你有沒有想過，AI 為什麼知道「做這件事比較好」？

你可以把獎勵函數想成成績計分表，AI 做到你要的行為就加分，做不到就少分。

它重要是因為強化學習學的不是答案本身，而是目標怎麼被衡量。

你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

容易混淆

獎勵函數 vs 損失函數

獎勵函數是越高越好損失函數是越低越好最關鍵的區別是最大化還是最小化。

獎勵函數 vs 獎勵建模

獎勵函數是評分規則獎勵建模是學出這個評分規則最關鍵的區別是規則本身還是規則的來源。

先定義什麼叫好，再讓模型去追分。

送餐機器人 如果只獎勵速度，機器人可能亂衝，所以通常要把安全和準時一起放進獎勵函數。

遊戲 AI 打怪加分、死亡扣分、達成任務再加分，這些都會影響最後學到的策略。

好的獎勵函數要盡量貼近真正目標，否則模型會學會鑽漏洞。獎勵稀疏時，模型很難知道哪一步有用，通常要靠獎勵塑形。在實務上，獎勵設計常比演算法本身更難。

Q1（直覺題）： 如果模型只顧著拿高分，卻做出不安全動作，問題多半出在哪裡？

多半出在獎勵函數設計不完整。

Q2（判斷題）： 把所有你想要的行為都加進獎勵函數，就一定比較好嗎？

不一定。太多條件可能互相衝突，讓模型不知道該優先追哪一個目標。

什麼是獎勵塑形？

A：就是把原本很難拿到的最終獎勵，拆成途中也能得到的小獎勵。

為什麼有時候要避免太密的獎勵？

A：因為模型可能只學會追每一步的小分數，反而忽略真正目標。

獎勵函數和人類價值有什麼關係？

A：如果獎勵函數沒有對齊人類真正想要的結果，模型就可能學偏。