你有沒有想過,AI 為什麼知道「做這件事比較好」?
你可以把獎勵函數想成成績計分表,AI 做到你要的行為就加分,做不到就少分。
它重要是因為強化學習學的不是答案本身,而是目標怎麼被衡量。
你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。
容易混淆
獎勵函數 vs 損失函數
獎勵函數是越高越好 損失函數是越低越好 最關鍵的區別是最大化還是最小化。
獎勵函數 vs 獎勵建模
獎勵函數是評分規則 獎勵建模是學出這個評分規則 最關鍵的區別是規則本身還是規則的來源。
記住這句就好
先定義什麼叫好,再讓模型去追分。
實際案例
送餐機器人 如果只獎勵速度,機器人可能亂衝,所以通常要把安全和準時一起放進獎勵函數。
遊戲 AI 打怪加分、死亡扣分、達成任務再加分,這些都會影響最後學到的策略。
算法與應用
好的獎勵函數要盡量貼近真正目標,否則模型會學會鑽漏洞。 獎勵稀疏時,模型很難知道哪一步有用,通常要靠獎勵塑形。 在實務上,獎勵設計常比演算法本身更難。
情境判斷
Q1(直覺題): 如果模型只顧著拿高分,卻做出不安全動作,問題多半出在哪裡?
多半出在獎勵函數設計不完整。
Q2(判斷題): 把所有你想要的行為都加進獎勵函數,就一定比較好嗎?
不一定。太多條件可能互相衝突,讓模型不知道該優先追哪一個目標。
常見問題
什麼是獎勵塑形?
A:就是把原本很難拿到的最終獎勵,拆成途中也能得到的小獎勵。
為什麼有時候要避免太密的獎勵?
A:因為模型可能只學會追每一步的小分數,反而忽略真正目標。
獎勵函數和人類價值有什麼關係?
A:如果獎勵函數沒有對齊人類真正想要的結果,模型就可能學偏。