iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論

RLHF 在做什麼?哪個步驟不屬於它?

原題 24

某企業導入大型語言模型作為客服助理。模型已具備穩定語言能力,但在回覆偏好一致性與組織規範遵循方面仍需優化,團隊因此規劃導入人類反饋強化學習(RLHF)流程,下列何者最不屬於 RLHF 階段的典型技術活動?

白話

某企業的大型語言模型語言能力已經夠穩定,但在回覆偏好一致性與組織規範遵循方面還不夠好。團隊因此規劃導入人類反饋強化學習(RLHF)流程來做優化。

問你:下列哪一項,最不屬於 RLHF 階段的典型技術活動?

點選你的答案。

01 總結

一句話總結

RLHF 的三步是:收集人類偏好、訓練獎勵模型、強化學習優化;用未標註語料做預訓練是 RLHF 之前的基礎訓練,不屬於 RLHF 流程

02 情境

先感受問題:語言模型說話流暢,但不夠「符合公司風格」

假設「中信金融」導入一個大型語言模型當客服助理,模型能流暢地回答各種問題,文法正確、語意清晰。

但主管發現:模型的回答有時候太隨意,有時候跟公司的服務承諾不一致,有時候用詞不符合金融業的規範用語。

這不是語言能力的問題,而是模型不知道「什麼樣的回答,客服主管認為是好的」。

解決方案就是 RLHF:讓真人主管去評估模型的回答,告訴模型「這個好、那個差」,再讓模型根據這些偏好學習,慢慢調整成符合公司風格的回答方式。

03 對照

只靠預訓練,模型不會「迎合偏好」

大型語言模型的訓練分成兩個截然不同的階段,不理解這個分野就容易搞混:

  1. 預訓練(Pre-training):用大量未標註的網路文字,讓模型學習語言的統計規律。目標是「讀了很多文字,能預測下一個字」。這個階段不需要人類評估,只要資料夠多就行
  2. 對齊(Alignment):模型語言能力已經足夠,現在要讓它學「什麼樣的回答是人類想要的」。RLHF 就是對齊的核心方法
  3. 兩個階段的目標完全不同:預訓練學「怎麼說話」,對齊學「說什麼樣的話是好的」
  4. 混淆兩個階段的後果:以為預訓練更久就能讓模型更符合人類偏好,但其實不行,因為預訓練的目標函數根本不包含「人類偏好」這個概念
  5. RLHF 的前提:模型必須先完成預訓練,有基本語言能力,才能進入 RLHF 流程。RLHF 是在預訓練的基礎上做的微調,不是從零開始
04 解法

RLHF 的三個固定步驟

「中信金融」導入 RLHF 的流程長這樣:

步驟一:收集人類偏好資料(對應選項 A)。讓客服主管看同一個問題的兩個不同回答,選出他們認為比較好的那個。重複幾千次,建立一個「人類偏好資料集」,記錄哪些回答比哪些回答更符合公司標準。

步驟二:訓練獎勵模型(對應選項 B)。用上一步的偏好資料,訓練一個「獎勵模型(Reward Model)」。這個模型會學習:給一個問題和一個回答,輸出一個分數,代表人類會多喜歡這個回答。之後就用這個分數代替真人評估,效率更高。

步驟三:用強化學習優化語言模型(對應選項 C)。讓語言模型不斷生成回答,獎勵模型給每個回答打分,語言模型根據分數調整生成策略,讓分數越來越高。這就是強化學習的訓練迴圈。

選項 D 說的「用未標註語料做長週期語言建模訓練」是預訓練做的事,不是 RLHF 的步驟。

這就是選項 D 最不屬於 RLHF 的原因:以未標註語料為主進行長週期表示學習,是 RLHF 之前的基礎預訓練,與 RLHF 的人類偏好反饋流程無關

技術版:RLHF 在大型語言模型發展中的位置

RLHF 屬於哪個領域:RLHF 是「AI 對齊(AI Alignment)」研究的核心方法,目標是讓 AI 系統的行為符合人類的價值觀和偏好。OpenAI 在 InstructGPT 論文中系統化地介紹了 RLHF 在 LLM 上的應用,ChatGPT 也是用 RLHF 訓練的。

獎勵模型的重要性:RLHF 的關鍵洞察是:讓真人評估每一個模型回答太貴、太慢,但可以先讓真人評估幾千個回答,用這些評估訓練出一個獎勵模型,然後讓獎勵模型代替真人打分,擴大到數百萬次的強化學習迭代。

預訓練 vs RLHF 的分工:預訓練讓模型學會語言知識(事實、推理、語法),RLHF 讓模型學會行為偏好(有禮貌、符合規範、不輸出有害內容)。兩者缺一不可,但屬於不同的技術流程。

為什麼出題者要考這題:RLHF 是近年 AI 實務中最重要的對齊技術,企業在部署 LLM 時幾乎都要面對「模型語言能力夠但行為不符合期待」的問題。AI 規劃師必須理解 RLHF 的流程,才能評估導入成本和效果。

05 陷阱

為什麼其他選項是錯的

A透過人工評估方式建立偏好資料,使模型的不同候選輸出可反映人類主觀品質差異

字面在說什麼

讓真人去評估模型的不同回答,記錄哪個比較好,建立偏好資料集。

為什麼不對

這是 RLHF 的第一步,是整個流程的起點。沒有人類偏好資料,就沒有辦法訓練獎勵模型,RLHF 流程根本無法啟動。A 是 RLHF 的典型技術活動,不能選。

誰會選錯

覺得「讓人工評估」太原始,不像是 AI 技術活動的人。人工標註資料在 AI 流程中非常重要,RLHF 的核心就是把人類判斷轉化為模型可以學習的訊號。

B訓練一個能依據人類偏好判斷輸出品質的模型,作為模型優化過程中的回饋依據

字面在說什麼

訓練獎勵模型,讓它學會打分,之後代替真人持續評估語言模型的輸出。

為什麼不對

這是 RLHF 的第二步:訓練獎勵模型(Reward Model)。沒有這個步驟,強化學習訓練就沒有回饋訊號,RLHF 無法進行。B 是 RLHF 的核心環節,不能選。

誰會選錯

對 RLHF 流程不熟,看到「訓練另一個模型」就覺得奇怪的人。RLHF 確實需要訓練兩個模型:獎勵模型和語言模型,前者是後者的老師。

C依據品質評估結果,調整模型生成策略,使其輸出更符合偏好導向的行為表現

字面在說什麼

根據獎勵模型的評分,透過強化學習調整語言模型,讓它越來越符合人類偏好。

為什麼不對

這是 RLHF 的第三步:強化學習優化(通常使用 PPO 演算法)。這是 RLHF 中「RL(Reinforcement Learning)」的部分,是整個流程的核心執行環節。C 是 RLHF 最典型的技術活動,不能選。

誰會選錯

不知道強化學習在 RLHF 中扮演什麼角色,以為「調整模型」只是普通微調的人。RLHF 的獨特之處在於用強化學習的迭代方式調整,而不是一次性的監督式微調。

06 變形

同個考點下次怎麼變形

變形 1

預訓練(Pre-training)和微調(Fine-tuning)的主要差別是什麼?

直覺

兩個都是在「訓練」模型,差在哪裡?

答案

預訓練是從大量通用資料中學習基礎知識,規模龐大、耗時長;微調是在預訓練模型的基礎上,用特定任務或領域的資料做進一步訓練,規模小、耗時短。RLHF 是一種特殊的微調方式,差別在於它的訓練訊號來自人類偏好而非標準答案。

變形 2

RLHF 中的獎勵模型(Reward Model)是做什麼用的?

直覺

為什麼需要另外訓練一個模型來打分,直接讓真人持續打分不行嗎?

答案

強化學習訓練語言模型需要數百萬次的回饋,讓真人評估每一次的輸出是不可能的(太貴、太慢)。獎勵模型是用較少量的人類偏好資料訓練出來的「自動評審員」,可以快速、大量地對語言模型的輸出打分,讓強化學習得以規模化進行。

變形 3

RLHF 解決了什麼傳統監督式微調(SFT)解決不了的問題?

直覺

用監督式微調直接訓練「好的回答」不就好了,為什麼還要 RLHF?

答案

監督式微調需要大量「標準答案」,但對於開放性問題,人類很難寫出唯一正確的標準答案,更容易做的是「比較兩個回答哪個更好」。RLHF 把「相對比較」轉化為訓練訊號,更符合人類評估的自然方式,也更能捕捉「難以言說的偏好」,例如語氣是否得體、態度是否積極。

變形 4

企業導入 RLHF 最大的成本在哪裡?

直覺

RLHF 聽起來比普通微調複雜很多,成本高在哪?

答案

最大的成本是人工標註:需要大量專業評估人員去比較模型輸出的品質。在金融、法律、醫療等高度專業領域,評估人員必須具備領域知識,薪資成本很高。這也是為什麼大公司才有資源做 RLHF,小公司通常改用 RLHF 訓練完的公開基礎模型再做微調。

變形 5

DPO(Direct Preference Optimization)跟 RLHF 有什麼關係?

直覺

有時候聽到 DPO 這個詞,它跟 RLHF 是同一件事嗎?

答案

DPO 是 RLHF 的替代方案。RLHF 需要三個步驟(收集偏好、訓練獎勵模型、強化學習優化),流程複雜且不穩定。DPO 的突破在於:跳過獎勵模型,直接用人類偏好資料更新語言模型,數學上等價於 RLHF 但更簡單、更穩定。目前許多開源模型(如 Llama 系列)都改用 DPO 做對齊。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 115 年第一次 iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論 第 24 題

查看官方原文 PDF