RLHF 在做什麼?哪個步驟不屬於它?
某企業導入大型語言模型作為客服助理。模型已具備穩定語言能力,但在回覆偏好一致性與組織規範遵循方面仍需優化,團隊因此規劃導入人類反饋強化學習(RLHF)流程,下列何者最不屬於 RLHF 階段的典型技術活動?
某企業的大型語言模型語言能力已經夠穩定,但在回覆偏好一致性與組織規範遵循方面還不夠好。團隊因此規劃導入人類反饋強化學習(RLHF)流程來做優化。
問你:下列哪一項,最不屬於 RLHF 階段的典型技術活動?
一句話總結
RLHF 的三步是:收集人類偏好、訓練獎勵模型、強化學習優化;用未標註語料做預訓練是 RLHF 之前的基礎訓練,不屬於 RLHF 流程。
先感受問題:語言模型說話流暢,但不夠「符合公司風格」
假設「中信金融」導入一個大型語言模型當客服助理,模型能流暢地回答各種問題,文法正確、語意清晰。
但主管發現:模型的回答有時候太隨意,有時候跟公司的服務承諾不一致,有時候用詞不符合金融業的規範用語。
這不是語言能力的問題,而是模型不知道「什麼樣的回答,客服主管認為是好的」。
解決方案就是 RLHF:讓真人主管去評估模型的回答,告訴模型「這個好、那個差」,再讓模型根據這些偏好學習,慢慢調整成符合公司風格的回答方式。
只靠預訓練,模型不會「迎合偏好」
大型語言模型的訓練分成兩個截然不同的階段,不理解這個分野就容易搞混:
- 預訓練(Pre-training):用大量未標註的網路文字,讓模型學習語言的統計規律。目標是「讀了很多文字,能預測下一個字」。這個階段不需要人類評估,只要資料夠多就行
- 對齊(Alignment):模型語言能力已經足夠,現在要讓它學「什麼樣的回答是人類想要的」。RLHF 就是對齊的核心方法
- 兩個階段的目標完全不同:預訓練學「怎麼說話」,對齊學「說什麼樣的話是好的」
- 混淆兩個階段的後果:以為預訓練更久就能讓模型更符合人類偏好,但其實不行,因為預訓練的目標函數根本不包含「人類偏好」這個概念
- RLHF 的前提:模型必須先完成預訓練,有基本語言能力,才能進入 RLHF 流程。RLHF 是在預訓練的基礎上做的微調,不是從零開始
RLHF 的三個固定步驟
「中信金融」導入 RLHF 的流程長這樣:
步驟一:收集人類偏好資料(對應選項 A)。讓客服主管看同一個問題的兩個不同回答,選出他們認為比較好的那個。重複幾千次,建立一個「人類偏好資料集」,記錄哪些回答比哪些回答更符合公司標準。
步驟二:訓練獎勵模型(對應選項 B)。用上一步的偏好資料,訓練一個「獎勵模型(Reward Model)」。這個模型會學習:給一個問題和一個回答,輸出一個分數,代表人類會多喜歡這個回答。之後就用這個分數代替真人評估,效率更高。
步驟三:用強化學習優化語言模型(對應選項 C)。讓語言模型不斷生成回答,獎勵模型給每個回答打分,語言模型根據分數調整生成策略,讓分數越來越高。這就是強化學習的訓練迴圈。
選項 D 說的「用未標註語料做長週期語言建模訓練」是預訓練做的事,不是 RLHF 的步驟。
這就是選項 D 最不屬於 RLHF 的原因:以未標註語料為主進行長週期表示學習,是 RLHF 之前的基礎預訓練,與 RLHF 的人類偏好反饋流程無關。
技術版:RLHF 在大型語言模型發展中的位置
RLHF 屬於哪個領域:RLHF 是「AI 對齊(AI Alignment)」研究的核心方法,目標是讓 AI 系統的行為符合人類的價值觀和偏好。OpenAI 在 InstructGPT 論文中系統化地介紹了 RLHF 在 LLM 上的應用,ChatGPT 也是用 RLHF 訓練的。
獎勵模型的重要性:RLHF 的關鍵洞察是:讓真人評估每一個模型回答太貴、太慢,但可以先讓真人評估幾千個回答,用這些評估訓練出一個獎勵模型,然後讓獎勵模型代替真人打分,擴大到數百萬次的強化學習迭代。
預訓練 vs RLHF 的分工:預訓練讓模型學會語言知識(事實、推理、語法),RLHF 讓模型學會行為偏好(有禮貌、符合規範、不輸出有害內容)。兩者缺一不可,但屬於不同的技術流程。
為什麼出題者要考這題:RLHF 是近年 AI 實務中最重要的對齊技術,企業在部署 LLM 時幾乎都要面對「模型語言能力夠但行為不符合期待」的問題。AI 規劃師必須理解 RLHF 的流程,才能評估導入成本和效果。
為什麼其他選項是錯的
A透過人工評估方式建立偏好資料,使模型的不同候選輸出可反映人類主觀品質差異
讓真人去評估模型的不同回答,記錄哪個比較好,建立偏好資料集。
這是 RLHF 的第一步,是整個流程的起點。沒有人類偏好資料,就沒有辦法訓練獎勵模型,RLHF 流程根本無法啟動。A 是 RLHF 的典型技術活動,不能選。
覺得「讓人工評估」太原始,不像是 AI 技術活動的人。人工標註資料在 AI 流程中非常重要,RLHF 的核心就是把人類判斷轉化為模型可以學習的訊號。
B訓練一個能依據人類偏好判斷輸出品質的模型,作為模型優化過程中的回饋依據
訓練獎勵模型,讓它學會打分,之後代替真人持續評估語言模型的輸出。
這是 RLHF 的第二步:訓練獎勵模型(Reward Model)。沒有這個步驟,強化學習訓練就沒有回饋訊號,RLHF 無法進行。B 是 RLHF 的核心環節,不能選。
對 RLHF 流程不熟,看到「訓練另一個模型」就覺得奇怪的人。RLHF 確實需要訓練兩個模型:獎勵模型和語言模型,前者是後者的老師。
C依據品質評估結果,調整模型生成策略,使其輸出更符合偏好導向的行為表現
根據獎勵模型的評分,透過強化學習調整語言模型,讓它越來越符合人類偏好。
這是 RLHF 的第三步:強化學習優化(通常使用 PPO 演算法)。這是 RLHF 中「RL(Reinforcement Learning)」的部分,是整個流程的核心執行環節。C 是 RLHF 最典型的技術活動,不能選。
不知道強化學習在 RLHF 中扮演什麼角色,以為「調整模型」只是普通微調的人。RLHF 的獨特之處在於用強化學習的迭代方式調整,而不是一次性的監督式微調。
同個考點下次怎麼變形
預訓練(Pre-training)和微調(Fine-tuning)的主要差別是什麼?
兩個都是在「訓練」模型,差在哪裡?
預訓練是從大量通用資料中學習基礎知識,規模龐大、耗時長;微調是在預訓練模型的基礎上,用特定任務或領域的資料做進一步訓練,規模小、耗時短。RLHF 是一種特殊的微調方式,差別在於它的訓練訊號來自人類偏好而非標準答案。
RLHF 中的獎勵模型(Reward Model)是做什麼用的?
為什麼需要另外訓練一個模型來打分,直接讓真人持續打分不行嗎?
強化學習訓練語言模型需要數百萬次的回饋,讓真人評估每一次的輸出是不可能的(太貴、太慢)。獎勵模型是用較少量的人類偏好資料訓練出來的「自動評審員」,可以快速、大量地對語言模型的輸出打分,讓強化學習得以規模化進行。
RLHF 解決了什麼傳統監督式微調(SFT)解決不了的問題?
用監督式微調直接訓練「好的回答」不就好了,為什麼還要 RLHF?
監督式微調需要大量「標準答案」,但對於開放性問題,人類很難寫出唯一正確的標準答案,更容易做的是「比較兩個回答哪個更好」。RLHF 把「相對比較」轉化為訓練訊號,更符合人類評估的自然方式,也更能捕捉「難以言說的偏好」,例如語氣是否得體、態度是否積極。
企業導入 RLHF 最大的成本在哪裡?
RLHF 聽起來比普通微調複雜很多,成本高在哪?
最大的成本是人工標註:需要大量專業評估人員去比較模型輸出的品質。在金融、法律、醫療等高度專業領域,評估人員必須具備領域知識,薪資成本很高。這也是為什麼大公司才有資源做 RLHF,小公司通常改用 RLHF 訓練完的公開基礎模型再做微調。
DPO(Direct Preference Optimization)跟 RLHF 有什麼關係?
有時候聽到 DPO 這個詞,它跟 RLHF 是同一件事嗎?
DPO 是 RLHF 的替代方案。RLHF 需要三個步驟(收集偏好、訓練獎勵模型、強化學習優化),流程複雜且不穩定。DPO 的突破在於:跳過獎勵模型,直接用人類偏好資料更新語言模型,數學上等價於 RLHF 但更簡單、更穩定。目前許多開源模型(如 Llama 系列)都改用 DPO 做對齊。
想再往下看,這 5 個
- 人類回饋強化學習(RLHF)讓語言模型透過人類偏好評估訊號調整行為,是目前 LLM 對齊的主流三步驟方法
- 獎勵建模(Reward Modeling)用人工偏好資料訓練可自動評分的獎勵模型,是 RLHF 第二步的核心技術
- 對齊校準(Alignment)讓 AI 行為符合人類意圖與價值觀的研究領域,RLHF 是目前最主流的對齊實作路徑
- 微調(Fine-tuning)在預訓練模型基礎上針對特定任務繼續訓練,RLHF 是一種以人類偏好為訊號的特殊微調
- 直接偏好優化(Direct Preference Optimization)跳過獎勵模型直接用偏好資料更新語言模型的 RLHF 替代方案,流程更簡單穩定