解析:
RLHF 流程包含三個階段:收集人類偏好資料、訓練獎勵模型、用強化學習優化生成策略。以未標註語料進行基礎語言建模屬於預訓練階段,不屬於 RLHF 的技術活動。
人類回饋強化學習(RLHF)是一種利用人類回饋訊號,訓練強化學習模型,使其行為更符合人類偏好的方法。|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。
你用聊天 AI 時,有沒有覺得它越來越像人、也越來越懂你的偏好?
你可以把 RLHF 想成先看人怎麼選答案,再用這些回饋去調整模型行為。
它重要是因為純預訓練的模型不一定懂人類想要什麼,RLHF 可以把「好用」拉近到「會講」旁邊。
你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。
RLHF vs 獎勵建模
RLHF 是整個流程 獎勵建模是流程中的一個環節 最關鍵的區別是全流程和其中一步。
RLHF vs 監督式微調
RLHF 用人類偏好與強化學習更新模型 監督式微調主要是拿標準答案直接學 最關鍵的區別是學答案還是學偏好。
先學人喜歡什麼,再把模型往那裡推。
對話助理 先收集人類對多個回答的偏好,再讓模型學會更有幫助、比較安全的回覆方式。
摘要系統 如果使用者偏好簡短、準確、沒廢話的答案,RLHF 可以把這些偏好帶進模型。
典型流程是蒐集偏好資料、訓練 reward model、再用強化學習更新語言模型。 它的目標不是只讓模型更聰明,而是讓它更符合人類使用習慣。 成本高、資料貴、流程長,是它最常見的代價。
Q1(直覺題): 如果模型先看人類對回答的排序偏好,再調整自己的輸出,這是什麼?
Q2(判斷題): 只要做了 RLHF,模型就不會出現危險回答嗎?
A:要靠清楚標準、標註訓練和一致性檢查,不是隨便打分就行。
A:通常很高,因為它需要大量偏好資料和多階段訓練。
A:不一定,只有在「人類偏好很重要」的任務裡,投資才比較值得。
某企業導入大型語言模型作為客服助理。模型已具備穩定語言能力,但在回覆偏好一致性與組織規範遵循方面仍需優化,團隊因此規劃導入人類反饋強化學習(RLHF)流程,下列何者最不屬於 RLHF 階段的典型技術活動?
解析:
RLHF 流程包含三個階段:收集人類偏好資料、訓練獎勵模型、用強化學習優化生成策略。以未標註語料進行基礎語言建模屬於預訓練階段,不屬於 RLHF 的技術活動。