---
title: "獎勵函數（Reward Function）"
slug: reward-function
language: zh-TW
source: https://aiterms.tw/terms/reward-function
updated_at: 2026-04-29
tags: [強化學習, 模型訓練, 最佳化, AI基礎, 數學基礎]
ipas_term: false
---

# 獎勵函數（Reward Function）

> **你有沒有想過，AI 為什麼知道「做這件事比較好」？**
>
> 你可以把獎勵函數想成成績計分表，AI 做到你要的行為就加分，做不到就少分。
>
> 它重要是因為強化學習學的不是答案本身，而是目標怎麼被衡量。
>
> 你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

### 容易混淆

> **獎勵函數 vs 損失函數**
>
> 獎勵函數是越高越好
> 損失函數是越低越好
> 最關鍵的區別是最大化還是最小化。
>
> **獎勵函數 vs 獎勵建模**
>
> 獎勵函數是評分規則
> 獎勵建模是學出這個評分規則
> 最關鍵的區別是規則本身還是規則的來源。
>

### 記住這句就好

> 先定義什麼叫好，再讓模型去追分。

### 實際案例

> **送餐機器人**
> 如果只獎勵速度，機器人可能亂衝，所以通常要把安全和準時一起放進獎勵函數。
>
> **遊戲 AI**
> 打怪加分、死亡扣分、達成任務再加分，這些都會影響最後學到的策略。
>

### 算法與應用

> 好的獎勵函數要盡量貼近真正目標，否則模型會學會鑽漏洞。
> 獎勵稀疏時，模型很難知道哪一步有用，通常要靠獎勵塑形。
> 在實務上，獎勵設計常比演算法本身更難。

### 情境判斷

> **Q1（直覺題）：如果模型只顧著拿高分，卻做出不安全動作，問題多半出在哪裡？**
>
> → 多半出在獎勵函數設計不完整。
>
> **Q2（判斷題）：把所有你想要的行為都加進獎勵函數，就一定比較好嗎？**
>
> → 不一定。太多條件可能互相衝突，讓模型不知道該優先追哪一個目標。
>

### 常見問題

> **Q：什麼是獎勵塑形？**
> A：就是把原本很難拿到的最終獎勵，拆成途中也能得到的小獎勵。
>
> **Q：為什麼有時候要避免太密的獎勵？**
> A：因為模型可能只學會追每一步的小分數，反而忽略真正目標。
>
> **Q：獎勵函數和人類價值有什麼關係？**
> A：如果獎勵函數沒有對齊人類真正想要的結果，模型就可能學偏。
>

### 相關術語

> - **強化學習**：讀完這個，再回來看主題會更完整。
> - **獎勵建模**：先看這個，再回頭看獎勵函數，會更懂偏好怎麼變成分數。
> - **策略梯度**：強化學習和獎勵更新常會看到它。
> - **馬可夫決策過程**：先讀這個，強化學習的形式化才完整。
> - **人類回饋強化學習**：它是把人類偏好接進模型的完整流程。

---

來源：https://aiterms.tw/terms/reward-function
快查頁：https://aiterms.tw/terms/reward-function
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-reward-function