iPAS AI 應用規劃師 初級 科目二 生成式 AI 應用與規劃

PEFT 哪種技術最省參數?

原題 02

在進行大型語言模型(LLM)企業專屬知識的 Fine-tuning 時,若內部 GPU 運算資源與記憶體嚴重受限,下列哪一種參數高效微調(PEFT, Parameter Efficient Fine-Tuning)技術最能在維持模型效能的前提下,顯著降低需更新的參數數量?

白話

企業要對大型語言模型(LLM)進行 Fine-tuning,讓它學到公司的專屬知識。但內部的 GPU 運算資源和記憶體嚴重受限,需要選一種參數高效微調(PEFT)技術,在維持模型效能的前提下,顯著降低需更新的參數數量。

問你:哪一種 PEFT 技術最能在資源受限的情況下,顯著減少需更新的參數數量?

點選你的答案。

01 總結

一句話總結

在 PEFT 技術中,LoRA(低秩適配)以極少的可訓練參數讓大型模型學會企業專屬知識,是資源受限情境下最有效率的選擇。

02 情境

先感受問題:一台 GPU 要微調 700 億參數的模型?

假設你在「智慧法律」法律科技公司任職,主管要求把 LLaMA-2 這個大型語言模型,調整成懂台灣合約法和勞基法的版本,讓律師可以直接問它合約條文。

問題來了:全公司只有一台配備 24GB VRAM 的 GPU。LLaMA-2 有 700 億個參數,完整重新訓練一遍需要的 GPU 記憶體是這台機器的數百倍,根本做不到。

你需要一種方法:只更新模型裡「很小一部分」的參數,讓它記住法律知識,但大部分的語言能力保持不動。這就是 PEFT(Parameter Efficient Fine-Tuning,參數高效微調)要解決的問題。

03 對照

資源不夠時,用舊方法微調會發生什麼?

在 LoRA 出現之前,「智慧法律」的工程師嘗試了幾種方案,全都碰壁:

  1. 全量微調(Full Fine-tuning):更新全部 700 億參數,GPU 記憶體直接爆掉,連第一步都跑不完
  2. 梯度凍結(Gradient Freezing):凍結大部分層,只更新最後幾層,但效果很有限,模型學不到深層的法律語意
  3. 知識蒸餾(Knowledge Distillation):需要先有一個「教師模型」,還要重新訓練整個「學生模型」,不只省不了資源,還更麻煩
  4. 只用 Prompt Engineering:不動模型,靠精心設計的提示詞引導,但無法讓模型真正「記住」公司的內部知識
  5. 每次都 API 呼叫大模型:費用高昂,而且無法做到客製化,每次都要在 Prompt 裡塞大量文件

每條路都有問題:要嘛資源不夠、要嘛效果不夠、要嘛成本太高。需要一個真正「省記憶體又有效」的方法。

04 解法

LoRA 怎麼用極少參數做到微調

「智慧法律」的工程師改用 LoRA(Low-Rank Adaptation,低秩適配)。LoRA 的核心概念很簡單:不改原本的模型參數,而是在旁邊接上一個超小的「適配器」

想像一下:你不改一本書的原文,只是夾進去幾張便利貼,記錄法律領域的特殊用語。訓練時只更新便利貼上的內容,書本身完全不動。

實際效果:一個 700 億參數的模型,用 LoRA 微調時,實際需要更新的參數可能只有幾千萬個,不到原來的 0.1%。24GB 的 GPU 完全負擔得起。

訓練完成後,「智慧法律」的法律 AI 助手已經懂台灣合約法,律師可以直接用中文問它條文細節,而且模型的通用語言能力完全保留。

這就是選項 D 講的:低秩適配(Low-Rank Adaptation,LoRA),用最少的更新參數、最小的記憶體占用,達到企業知識注入的效果

技術版:LoRA 在 PEFT 家族中的位置

LoRA(Low-Rank Adaptation)屬於 PEFT(Parameter Efficient Fine-Tuning)技術家族,是目前企業導入 LLM 客製化時最廣泛使用的方法之一。

LoRA 的核心概念:大型語言模型的權重矩陣可以用兩個小矩陣的乘積來近似(低秩分解)。微調時只訓練這兩個小矩陣,原始權重完全凍結。訓練完成後,這個小矩陣可以合回原始模型,推論時不增加延遲。

PEFT 四種方法對比:

  • LoRA(低秩適配):在注意力層旁接低秩矩陣,參數更新量最少,效果最好,是 PEFT 首選
  • 梯度凍結(Gradient Freezing):直接凍結部分層的梯度不更新,操作簡單,但只更新淺層效果有限;凍結全部是全量凍結,不算微調
  • 知識蒸餾(Knowledge Distillation):不是微調技術,而是把大模型的知識壓縮到小模型,需要重新訓練,資源要求更高
  • Prompt Engineering(提示詞工程):完全不更新模型參數,靠輸入端設計,無法讓模型真正學到新知識

為什麼出題者要考這題:AI 應用規劃師在評估企業導入 LLM 方案時,必須了解各種微調策略的資源需求與適用場景。資源受限是台灣中小企業最常見的限制,能準確判斷哪種技術最省資源,直接影響方案可行性。

05 陷阱

為什麼其他選項是錯的

A知識蒸餾(Knowledge Distillation)

字面在說什麼

用一個大模型(老師)來訓練一個小模型(學生),把大模型的知識「蒸餾」進小模型裡。

為什麼不對

知識蒸餾的目的是「模型壓縮」,不是「企業知識注入」。它需要先有大模型的輸出作為訓練目標,還要重新訓練整個學生模型,資源需求反而比 LoRA 更高,不符合「資源受限」的情境。

誰會選錯

看到「省資源」就想到「讓模型變小」、進而聯想到知識蒸餾的人。但蒸餾是縮小模型,不是省資源微調。

B提示詞工程(Prompt Engineering)

字面在說什麼

透過精心設計輸入的提示詞(Prompt),引導模型給出更好的回答,不改動模型本身。

為什麼不對

Prompt Engineering 完全不更新任何參數,模型不會真正「學到」企業知識。每次對話都要在 Prompt 裡塞入背景資訊,有長度限制,而且成本隨使用量累積。它不屬於 Fine-tuning,也不屬於 PEFT 技術。

誰會選錯

以為「不動模型 = 最省資源 = 最好」的人。但題目要求的是讓模型真正習得企業知識的微調方法,Prompt Engineering 做不到這一點。

C梯度凍結(Gradient Freezing)

字面在說什麼

在訓練時,把模型大部分層的梯度「凍結」,讓它們不更新,只更新最後幾層或特定層。

為什麼不對

梯度凍結是一種粗糙的方法:只能更新特定幾層,無法像 LoRA 那樣精確地在每一層加入低秩適配器。效果比 LoRA 差,而且無法靈活控制「更新幾個參數」。題目問的是「最能顯著降低需更新的參數數量」,LoRA 在這點上遠優於梯度凍結。

誰會選錯

知道梯度凍結可以「省一些計算量」、但不清楚 LoRA 的效率遠高於它的人。梯度凍結是 LoRA 出現之前的過渡方案。

06 變形

同個考點下次怎麼變形

變形 1

PEFT 和全量微調(Full Fine-tuning)最主要的差別是什麼?

直覺

兩個都是「調整模型讓它更懂某個領域」,應該差不多?

答案

全量微調更新模型所有參數,需要大量 GPU 記憶體,成本極高。PEFT 只更新極少量參數(通常不到 1%),讓普通企業也能在自己的硬體上做 LLM 客製化。PEFT 是讓 LLM 微調民主化的關鍵技術

變形 2

LoRA 微調和 Prompt Engineering 在「讓模型懂企業知識」這件事上有什麼本質差異?

直覺

兩個都能讓模型更像懂行業知識,選哪個不都一樣嗎?

答案

LoRA 會真正改變模型的權重,讓知識內化到模型裡,不需要每次都在輸入端提供背景資料。Prompt Engineering 是每次對話都要重新提供上下文,模型本身沒有改變。長期使用成本和使用體驗差異很大。

變形 3

知識蒸餾(Knowledge Distillation)的主要目的是什麼?

直覺

聽起來也是把「知識」轉移到模型裡,跟 Fine-tuning 一樣嗎?

答案

知識蒸餾的目的是模型壓縮:把大模型的行為複製到小模型,讓小模型在推論時更快、更省資源。它不是注入企業知識的方法,而是讓已訓練好的大模型的能力「瘦身」到可部署的大小。

變形 4

企業在選擇 LLM 微調方案時,除了效能,還應評估哪些因素?

直覺

只要效果好就選那個方案?

答案

應同時評估:GPU 記憶體需求(能不能跑得起來)、訓練時間與費用推論時的延遲(LoRA 可以合回原模型不增加延遲)、可維護性(日後如何更新知識)。規劃師的工作是在這些因素間找到最佳平衡點。

變形 5

RAG(檢索增強生成)和 LoRA 微調各自適合什麼情境?

直覺

兩個都能讓模型回答企業內部知識,選哪個都一樣?

答案

RAG 適合知識頻繁更新、資料量大的情境(每次查詢時動態檢索);LoRA 適合核心知識相對穩定、需要模型深度理解特定領域語言風格的情境。兩者可以互補,實務上也常合用。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 115 年第一次 iPAS AI 應用規劃師 初級 科目二 生成式 AI 應用與規劃 第 2 題

查看官方原文 PDF