iPAS AI 應用規劃師初級　科目一　人工智慧基礎概論

RLHF 在做什麼？哪個步驟不屬於它？

原題 24

某企業導入大型語言模型作為客服助理。模型已具備穩定語言能力，但在回覆偏好一致性與組織規範遵循方面仍需優化，團隊因此規劃導入人類反饋強化學習（RLHF）流程，下列何者最不屬於 RLHF 階段的典型技術活動？

白話

某企業的大型語言模型語言能力已經夠穩定，但在回覆偏好一致性與組織規範遵循方面還不夠好。團隊因此規劃導入人類反饋強化學習（RLHF）流程來做優化。

問你：下列哪一項，最不屬於 RLHF 階段的典型技術活動？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

RLHF 的三步是：收集人類偏好、訓練獎勵模型、強化學習優化；用未標註語料做預訓練是 RLHF 之前的基礎訓練，不屬於 RLHF 流程。

02　情境

先感受問題：語言模型說話流暢，但不夠「符合公司風格」

假設「中信金融」導入一個大型語言模型當客服助理，模型能流暢地回答各種問題，文法正確、語意清晰。

但主管發現：模型的回答有時候太隨意，有時候跟公司的服務承諾不一致，有時候用詞不符合金融業的規範用語。

這不是語言能力的問題，而是模型不知道「什麼樣的回答，客服主管認為是好的」。

解決方案就是 RLHF：讓真人主管去評估模型的回答，告訴模型「這個好、那個差」，再讓模型根據這些偏好學習，慢慢調整成符合公司風格的回答方式。

03　對照

只靠預訓練，模型不會「迎合偏好」

大型語言模型的訓練分成兩個截然不同的階段，不理解這個分野就容易搞混：

預訓練（Pre-training）：用大量未標註的網路文字，讓模型學習語言的統計規律。目標是「讀了很多文字，能預測下一個字」。這個階段不需要人類評估，只要資料夠多就行
對齊（Alignment）：模型語言能力已經足夠，現在要讓它學「什麼樣的回答是人類想要的」。RLHF 就是對齊的核心方法
兩個階段的目標完全不同：預訓練學「怎麼說話」，對齊學「說什麼樣的話是好的」
混淆兩個階段的後果：以為預訓練更久就能讓模型更符合人類偏好，但其實不行，因為預訓練的目標函數根本不包含「人類偏好」這個概念
RLHF 的前提：模型必須先完成預訓練，有基本語言能力，才能進入 RLHF 流程。RLHF 是在預訓練的基礎上做的微調，不是從零開始

04　解法

RLHF 的三個固定步驟

「中信金融」導入 RLHF 的流程長這樣：

步驟一：收集人類偏好資料（對應選項 A）。讓客服主管看同一個問題的兩個不同回答，選出他們認為比較好的那個。重複幾千次，建立一個「人類偏好資料集」，記錄哪些回答比哪些回答更符合公司標準。

步驟二：訓練獎勵模型（對應選項 B）。用上一步的偏好資料，訓練一個「獎勵模型（Reward Model）」。這個模型會學習：給一個問題和一個回答，輸出一個分數，代表人類會多喜歡這個回答。之後就用這個分數代替真人評估，效率更高。

步驟三：用強化學習優化語言模型（對應選項 C）。讓語言模型不斷生成回答，獎勵模型給每個回答打分，語言模型根據分數調整生成策略，讓分數越來越高。這就是強化學習的訓練迴圈。

選項 D 說的「用未標註語料做長週期語言建模訓練」是預訓練做的事，不是 RLHF 的步驟。

這就是選項 D 最不屬於 RLHF 的原因：以未標註語料為主進行長週期表示學習，是 RLHF 之前的基礎預訓練，與 RLHF 的人類偏好反饋流程無關。

技術版：RLHF 在大型語言模型發展中的位置

RLHF 屬於哪個領域：RLHF 是「AI 對齊（AI Alignment）」研究的核心方法，目標是讓 AI 系統的行為符合人類的價值觀和偏好。OpenAI 在 InstructGPT 論文中系統化地介紹了 RLHF 在 LLM 上的應用，ChatGPT 也是用 RLHF 訓練的。

獎勵模型的重要性：RLHF 的關鍵洞察是：讓真人評估每一個模型回答太貴、太慢，但可以先讓真人評估幾千個回答，用這些評估訓練出一個獎勵模型，然後讓獎勵模型代替真人打分，擴大到數百萬次的強化學習迭代。

預訓練 vs RLHF 的分工：預訓練讓模型學會語言知識（事實、推理、語法），RLHF 讓模型學會行為偏好（有禮貌、符合規範、不輸出有害內容）。兩者缺一不可，但屬於不同的技術流程。

為什麼出題者要考這題：RLHF 是近年 AI 實務中最重要的對齊技術，企業在部署 LLM 時幾乎都要面對「模型語言能力夠但行為不符合期待」的問題。AI 規劃師必須理解 RLHF 的流程，才能評估導入成本和效果。

05　陷阱

為什麼其他選項是錯的

A透過人工評估方式建立偏好資料，使模型的不同候選輸出可反映人類主觀品質差異

字面在說什麼

讓真人去評估模型的不同回答，記錄哪個比較好，建立偏好資料集。

為什麼不對

這是 RLHF 的第一步，是整個流程的起點。沒有人類偏好資料，就沒有辦法訓練獎勵模型，RLHF 流程根本無法啟動。A 是 RLHF 的典型技術活動，不能選。

誰會選錯

覺得「讓人工評估」太原始，不像是 AI 技術活動的人。人工標註資料在 AI 流程中非常重要，RLHF 的核心就是把人類判斷轉化為模型可以學習的訊號。

B訓練一個能依據人類偏好判斷輸出品質的模型，作為模型優化過程中的回饋依據

字面在說什麼

訓練獎勵模型，讓它學會打分，之後代替真人持續評估語言模型的輸出。

為什麼不對

這是 RLHF 的第二步：訓練獎勵模型（Reward Model）。沒有這個步驟，強化學習訓練就沒有回饋訊號，RLHF 無法進行。B 是 RLHF 的核心環節，不能選。

誰會選錯

對 RLHF 流程不熟，看到「訓練另一個模型」就覺得奇怪的人。RLHF 確實需要訓練兩個模型：獎勵模型和語言模型，前者是後者的老師。

C依據品質評估結果，調整模型生成策略，使其輸出更符合偏好導向的行為表現

字面在說什麼

根據獎勵模型的評分，透過強化學習調整語言模型，讓它越來越符合人類偏好。

為什麼不對

這是 RLHF 的第三步：強化學習優化（通常使用 PPO 演算法）。這是 RLHF 中「RL（Reinforcement Learning）」的部分，是整個流程的核心執行環節。C 是 RLHF 最典型的技術活動，不能選。

人類回饋強化學習（RLHF）讓語言模型透過人類偏好評估訊號調整行為，是目前 LLM 對齊的主流三步驟方法
獎勵建模（Reward Modeling）用人工偏好資料訓練可自動評分的獎勵模型，是 RLHF 第二步的核心技術
對齊校準（Alignment）讓 AI 行為符合人類意圖與價值觀的研究領域，RLHF 是目前最主流的對齊實作路徑
微調（Fine-tuning）在預訓練模型基礎上針對特定任務繼續訓練，RLHF 是一種以人類偏好為訊號的特殊微調
直接偏好優化（Direct Preference Optimization）跳過獎勵模型直接用偏好資料更新語言模型的 RLHF 替代方案，流程更簡單穩定