RM（獎勵建模）是什麼？完整定義與解說

你有沒有在想，AI 的「好不好」到底是誰教它判斷的？

你可以把獎勵建模想成先請人打分，再讓模型學會模仿這種偏好。

它重要是因為很多有價值的標準很難手寫，像「有沒有幫到人」往往只能靠偏好資料學出來。

你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

容易混淆

獎勵建模 vs 獎勵函數

獎勵建模是在學評分器獎勵函數是定義好壞的規則最關鍵的區別是學規則還是寫規則。

獎勵建模 vs RLHF

獎勵建模是 RLHF 裡的一步 RLHF 是整個人類回饋強化學習流程最關鍵的區別是局部步驟和完整流程。

先學人喜歡什麼，再讓模型照著學。

聊天機器人偏好 讓標註員比較兩個回答哪個更好，模型就能學到更像人類偏好的打分方式。

內容推薦 如果系統要學「哪個結果比較有幫助」，獎勵建模可以把這種主觀偏好變成可學習的訊號。

常見做法是 pairwise preference，也就是讓人比較兩個答案誰比較好。訓練出來的 reward model 會幫後續策略更新提供分數。偏好資料品質很重要，因為模型只會放大標註裡的規律。

Q1（直覺題）： 如果你先收集人類對回答的偏好，再訓練一個打分器，這叫什麼？

這就是獎勵建模。

Q2（判斷題）： 只要 reward model 分數高，最終回答就一定最好嗎？

不一定。模型可能學到表面特徵，還是要搭配實際人類評估。

獎勵建模如何用在大型語言模型？

A：常用在 RLHF 流程裡，先學出偏好分數，再用它來更新模型。

獎勵建模最大的挑戰是什麼？

A：偏好標註很主觀，而且不同標註者的標準可能不一致。

怎麼評估獎勵模型？

A：通常看它能不能正確排序人類偏好的回答，還會看和實際使用者滿意度是否一致。