iPAS AI 應用規劃師初級　科目二　生成式 AI 應用與規劃

PEFT 哪種技術最省參數？

原題 02

在進行大型語言模型（LLM）企業專屬知識的 Fine-tuning 時，若內部 GPU 運算資源與記憶體嚴重受限，下列哪一種參數高效微調（PEFT, Parameter Efficient Fine-Tuning）技術最能在維持模型效能的前提下，顯著降低需更新的參數數量？

白話

企業要對大型語言模型（LLM）進行 Fine-tuning，讓它學到公司的專屬知識。但內部的 GPU 運算資源和記憶體嚴重受限，需要選一種參數高效微調（PEFT）技術，在維持模型效能的前提下，顯著降低需更新的參數數量。

問你：哪一種 PEFT 技術最能在資源受限的情況下，顯著減少需更新的參數數量？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

在 PEFT 技術中，LoRA（低秩適配）以極少的可訓練參數讓大型模型學會企業專屬知識，是資源受限情境下最有效率的選擇。

02　情境

先感受問題：一台 GPU 要微調 700 億參數的模型？

假設你在「智慧法律」法律科技公司任職，主管要求把 LLaMA-2 這個大型語言模型，調整成懂台灣合約法和勞基法的版本，讓律師可以直接問它合約條文。

問題來了：全公司只有一台配備 24GB VRAM 的 GPU。LLaMA-2 有 700 億個參數，完整重新訓練一遍需要的 GPU 記憶體是這台機器的數百倍，根本做不到。

你需要一種方法：只更新模型裡「很小一部分」的參數，讓它記住法律知識，但大部分的語言能力保持不動。這就是 PEFT（Parameter Efficient Fine-Tuning，參數高效微調）要解決的問題。

03　對照

資源不夠時，用舊方法微調會發生什麼？

在 LoRA 出現之前，「智慧法律」的工程師嘗試了幾種方案，全都碰壁：

全量微調（Full Fine-tuning）：更新全部 700 億參數，GPU 記憶體直接爆掉，連第一步都跑不完
梯度凍結（Gradient Freezing）：凍結大部分層，只更新最後幾層，但效果很有限，模型學不到深層的法律語意
知識蒸餾（Knowledge Distillation）：需要先有一個「教師模型」，還要重新訓練整個「學生模型」，不只省不了資源，還更麻煩
只用 Prompt Engineering：不動模型，靠精心設計的提示詞引導，但無法讓模型真正「記住」公司的內部知識
每次都 API 呼叫大模型：費用高昂，而且無法做到客製化，每次都要在 Prompt 裡塞大量文件

每條路都有問題：要嘛資源不夠、要嘛效果不夠、要嘛成本太高。需要一個真正「省記憶體又有效」的方法。

04　解法

LoRA 怎麼用極少參數做到微調

「智慧法律」的工程師改用 LoRA（Low-Rank Adaptation，低秩適配）。LoRA 的核心概念很簡單：不改原本的模型參數，而是在旁邊接上一個超小的「適配器」。

想像一下：你不改一本書的原文，只是夾進去幾張便利貼，記錄法律領域的特殊用語。訓練時只更新便利貼上的內容，書本身完全不動。

實際效果：一個 700 億參數的模型，用 LoRA 微調時，實際需要更新的參數可能只有幾千萬個，不到原來的 0.1%。24GB 的 GPU 完全負擔得起。

訓練完成後，「智慧法律」的法律 AI 助手已經懂台灣合約法，律師可以直接用中文問它條文細節，而且模型的通用語言能力完全保留。

這就是選項 D 講的：低秩適配（Low-Rank Adaptation，LoRA），用最少的更新參數、最小的記憶體占用，達到企業知識注入的效果。

技術版：LoRA 在 PEFT 家族中的位置

LoRA（Low-Rank Adaptation）屬於 PEFT（Parameter Efficient Fine-Tuning）技術家族，是目前企業導入 LLM 客製化時最廣泛使用的方法之一。

LoRA 的核心概念：大型語言模型的權重矩陣可以用兩個小矩陣的乘積來近似（低秩分解）。微調時只訓練這兩個小矩陣，原始權重完全凍結。訓練完成後，這個小矩陣可以合回原始模型，推論時不增加延遲。

PEFT 四種方法對比：

LoRA（低秩適配）：在注意力層旁接低秩矩陣，參數更新量最少，效果最好，是 PEFT 首選
梯度凍結（Gradient Freezing）：直接凍結部分層的梯度不更新，操作簡單，但只更新淺層效果有限；凍結全部是全量凍結，不算微調
知識蒸餾（Knowledge Distillation）：不是微調技術，而是把大模型的知識壓縮到小模型，需要重新訓練，資源要求更高
Prompt Engineering（提示詞工程）：完全不更新模型參數，靠輸入端設計，無法讓模型真正學到新知識

為什麼出題者要考這題：AI 應用規劃師在評估企業導入 LLM 方案時，必須了解各種微調策略的資源需求與適用場景。資源受限是台灣中小企業最常見的限制，能準確判斷哪種技術最省資源，直接影響方案可行性。

05　陷阱

為什麼其他選項是錯的

A知識蒸餾（Knowledge Distillation）

字面在說什麼

用一個大模型（老師）來訓練一個小模型（學生），把大模型的知識「蒸餾」進小模型裡。

為什麼不對

知識蒸餾的目的是「模型壓縮」，不是「企業知識注入」。它需要先有大模型的輸出作為訓練目標，還要重新訓練整個學生模型，資源需求反而比 LoRA 更高，不符合「資源受限」的情境。

誰會選錯

看到「省資源」就想到「讓模型變小」、進而聯想到知識蒸餾的人。但蒸餾是縮小模型，不是省資源微調。

B提示詞工程（Prompt Engineering）

字面在說什麼

透過精心設計輸入的提示詞（Prompt），引導模型給出更好的回答，不改動模型本身。

為什麼不對

Prompt Engineering 完全不更新任何參數，模型不會真正「學到」企業知識。每次對話都要在 Prompt 裡塞入背景資訊，有長度限制，而且成本隨使用量累積。它不屬於 Fine-tuning，也不屬於 PEFT 技術。

誰會選錯

以為「不動模型 = 最省資源 = 最好」的人。但題目要求的是讓模型真正習得企業知識的微調方法，Prompt Engineering 做不到這一點。

C梯度凍結（Gradient Freezing）

字面在說什麼

在訓練時，把模型大部分層的梯度「凍結」，讓它們不更新，只更新最後幾層或特定層。

為什麼不對

梯度凍結是一種粗糙的方法：只能更新特定幾層，無法像 LoRA 那樣精確地在每一層加入低秩適配器。效果比 LoRA 差，而且無法靈活控制「更新幾個參數」。題目問的是「最能顯著降低需更新的參數數量」，LoRA 在這點上遠優於梯度凍結。

誰會選錯

知道梯度凍結可以「省一些計算量」、但不清楚 LoRA 的效率遠高於它的人。梯度凍結是 LoRA 出現之前的過渡方案。

06　變形

同個考點下次怎麼變形

變形 1

PEFT 和全量微調（Full Fine-tuning）最主要的差別是什麼？

直覺

兩個都是「調整模型讓它更懂某個領域」，應該差不多？

答案

全量微調更新模型所有參數，需要大量 GPU 記憶體，成本極高。PEFT 只更新極少量參數（通常不到 1%），讓普通企業也能在自己的硬體上做 LLM 客製化。PEFT 是讓 LLM 微調民主化的關鍵技術。

變形 2

LoRA 微調和 Prompt Engineering 在「讓模型懂企業知識」這件事上有什麼本質差異？

直覺

兩個都能讓模型更像懂行業知識，選哪個不都一樣嗎？

答案

LoRA 會真正改變模型的權重，讓知識內化到模型裡，不需要每次都在輸入端提供背景資料。Prompt Engineering 是每次對話都要重新提供上下文，模型本身沒有改變。長期使用成本和使用體驗差異很大。

變形 3

知識蒸餾（Knowledge Distillation）的主要目的是什麼？

直覺

聽起來也是把「知識」轉移到模型裡，跟 Fine-tuning 一樣嗎？

答案

知識蒸餾的目的是模型壓縮：把大模型的行為複製到小模型，讓小模型在推論時更快、更省資源。它不是注入企業知識的方法，而是讓已訓練好的大模型的能力「瘦身」到可部署的大小。

變形 4

企業在選擇 LLM 微調方案時，除了效能，還應評估哪些因素？

直覺

只要效果好就選那個方案？

答案

應同時評估：GPU 記憶體需求（能不能跑得起來）、訓練時間與費用、推論時的延遲（LoRA 可以合回原模型不增加延遲）、可維護性（日後如何更新知識）。規劃師的工作是在這些因素間找到最佳平衡點。

變形 5

RAG（檢索增強生成）和 LoRA 微調各自適合什麼情境？

直覺

兩個都能讓模型回答企業內部知識，選哪個都一樣？

答案

RAG 適合知識頻繁更新、資料量大的情境（每次查詢時動態檢索）；LoRA 適合核心知識相對穩定、需要模型深度理解特定領域語言風格的情境。兩者可以互補，實務上也常合用。

07　延伸

想再往下看，這 5 個

低秩適配（LoRA）插入低秩矩陣只訓練少量適配器參數，大幅降低 GPU 記憶體需求，是目前最主流的 PEFT 方法
微調（Fine-tuning）在預訓練模型基礎上用特定領域資料繼續訓練，LoRA 是其參數高效版本的代表
知識蒸餾（Knowledge Distillation）將大模型行為複製到小模型以縮小規模，與 LoRA 的目的不同，是易混淆的選項
量化低秩適配（QLoRA）在 LoRA 基礎上加入量化，進一步壓縮記憶體佔用，讓消費級 GPU 也能微調大型模型
大型語言模型（Large Language Model）企業 Fine-tuning 的目標對象，因參數量龐大才需要 PEFT 技術降低資源需求