iPAS AI 應用規劃師中級　科目一

VAE 生成路徑 vs BERT 鑑別路徑，標注資料少的時候比哪個最有意義？

原題 43

某金融科技公司欲導入 AI 模型協助客服郵件自動分類（投訴、詢問、表揚）。團隊同時考慮兩種模型設計：方案 A（生成式路徑）：採用 VAE 建構潛在語意空間，再結合下游分類器進行標籤預測；方案 B（鑑別式路徑）：採用 BERT Classifier 直接根據輸入文本進行監督式分類。現有標注資料約 2,000 筆，資料分佈均勻但擴充成本高。若團隊希望公平比較兩種模型的資料利用效率與泛化能力，下列哪一種實驗設計最能突顯兩者的本質差異？

白話

一家金融科技公司要用 AI 幫客服自動把郵件分成三類：投訴、詢問、表揚。他們在考慮兩種做法：

方案 A（生成式路徑）：先用 VAE（變分自編碼器，Variational Autoencoder）把文字壓縮成語意空間，再接一個分類器。方案 B（鑑別式路徑）：直接用 BERT Classifier 監督式訓練，吃文字吐出類別。

現在只有 2,000 筆有標注的資料，擴充很貴。他們想知道這兩種方案在「資料效率」和「泛化能力」上到底差在哪。

問你：哪一種實驗設計，最能突顯這兩個方案的本質差異？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

要比較生成式和鑑別式模型的本質差異，關鍵就在「標注資料的依賴程度」。正確的實驗設計是：逐步減少標注比例（100%→50%→10%），在低資源情境下比較兩者的 F1-score，才能看出誰更能在資料少的情況下撐住泛化能力。

02　情境

先感受問題：2,000 筆資料，哪種模型用得更省？

假設「富邦金科」客服中心每天收到幾千封郵件，要把它們分類成「投訴」「詢問」「表揚」三類，再轉給對應的處理團隊。

現在有 2,000 封人工標注過的郵件，但要再標更多要花很多人力。工程師提出兩套方案：

方案 A（VAE 生成式路徑）：先讓 VAE 讀大量未標注的郵件，學習郵件的語意結構，再用 2,000 筆標注資料訓練分類器。VAE 學語意不需要標注，所以有效利用了未標注的資料。

方案 B（BERT 鑑別式路徑）：直接用 2,000 筆標注郵件，端對端訓練 BERT 分類器。BERT 自身有龐大的預訓練知識，但微調時完全依賴這 2,000 筆標注。

問題來了：資料標注很貴，如果未來只能標 200 筆（10%），哪個方案更能維持分類品質？這才是這道題真正在問的。

要回答這個問題，實驗設計就必須「把標注資料的數量當作變數」，看不同標注比例下兩個方案的表現曲線，而不是只比一個時間點的準確率。

03　對照

為什麼用完整資料集比較看不出本質差異

直覺上「把兩個方案都在全部 2,000 筆資料上跑一遍，比比看誰準確率高」聽起來很合理。但這樣做有五個問題：

資料充足時兩者差距最小：BERT 有強大的預訓練基礎，2,000 筆全用上時表現可能很好；VAE 路徑在資料充足時也不差。這個點上兩者的差異，無法代表它們的本質差異。
掩蓋了資料效率差異：VAE 的核心優勢是能利用未標注資料，這在資料稀缺時才凸顯。全資料比較根本看不到這個優勢。
準確率是個糟糕的指標：三類分佈均勻時還好，但準確率不能反映各類的召回率（Recall）和精確率（Precision）。F1-score 更適合多分類問題的整體評估。
推論時間不是本質差異：生成式和鑑別式模型的本質差異不在速度，在資料效率和建模假設。比推論時間像是在比誰跑得快，不是比誰的策略更好。
無法看到泛化能力曲線：泛化能力要從資料量的變化中看出來，在固定資料量上測一個點，根本看不到「這個方案在資料少的時候會怎樣」。

04　解法

低資源實驗設計：讓「資料比例」當壓力測試

回到「富邦金科」。要突顯兩個方案的本質差異，正確設計是：

把 2,000 筆標注資料分三輪實驗，每輪只用一個比例的標注資料訓練：

第一輪：用 100%（2,000 筆）標注資料訓練，測試集上跑 F1-score
第二輪：只用 50%（1,000 筆）標注資料訓練，其餘 1,000 筆當測試集，跑 F1-score
第三輪：只用 10%（200 筆）標注資料訓練，其餘 1,800 筆當測試集，跑 F1-score

預期會看到的結果：

100% 時兩者 F1 差距小（資料充足，BERT 的優勢發揮出來）
50% 時差距開始出現
10% 時差距最大：VAE 路徑因為能利用未標注資料學語意，F1 下降相對少；BERT 純監督式，少了標注資料表現跌得更明顯

這條「資料比例 vs F1-score」的曲線，才能真正回答：「這兩種架構，在資料效率和泛化能力上的本質差異是什麼」。

這就是選項 B 講的：在低資源情境（Low-resource Setting）下，逐步減少標注比例（100%、50%、10%），比較其 F1-score。

技術版：生成式路徑與鑑別式路徑的建模假設差異

本題沒有程式碼，但相關技術背景值得知道。

生成式模型（Generative Model）的建模假設：試圖學習資料本身的分佈 P(X) 或聯合分佈 P(X, Y)。VAE 就是生成式模型，它學習「郵件的語意空間長什麼樣」，不一定需要標注。學好語意空間之後，再接下游分類器利用標注資料做分類。這種兩階段方式讓它在標注稀缺時有優勢，因為第一階段可以完全用未標注資料。

鑑別式模型（Discriminative Model）的建模假設：直接學習條件分佈 P(Y|X)，給一封郵件，輸出它是哪個類別的機率。BERT Classifier 是典型鑑別式模型。好處是訓練效率高、推論直接；缺點是對標注資料高度依賴，標注少了表現掉得快。

F1-score 為什麼比 Accuracy 好：F1-score = 2 × (Precision × Recall) / (Precision + Recall)。Accuracy 只看「對的比例」，在類別不均衡時很容易被假高分欺騙（例如全猜「詢問」也能有 60% 準確率）。F1-score 強迫模型在精確率和召回率兩邊都表現好，對多分類任務更能反映真實效能。

Low-resource Setting 的科學價值：在機器學習研究裡，「低資源設定」是標準的壓力測試方法，用來評估模型的資料效率。學術論文在比較兩種架構時，通常都會畫「訓練資料量 vs 效能」的學習曲線（Learning Curve），而不是只報告全資料的一個數字。這道題的選項 B 就是在做這件事。

VAE 的半監督學習潛力：VAE 的潛在空間訓練不需要標注，可以先用幾萬封未標注郵件訓練 VAE（學習郵件語意的通用結構），再只用 200 筆標注微調分類器。這種半監督（Semi-supervised）的資料利用方式，是純鑑別式模型做不到的。

05　陷阱

為什麼其他選項是錯的

A在完整資料集上分別訓練兩者，並比較其分類準確率（Accuracy）與推論時間

字面在說什麼

用全部 2,000 筆資料跑兩個方案，比準確率和推論速度。

為什麼不對

資料充足時，生成式和鑑別式的差異最小。這個實驗點無法揭示兩者在資料稀缺情境下的本質差異。而且準確率不適合用來比較類別均衡的多分類問題，推論時間更跟「資料利用效率」和「泛化能力」毫無關係。這個設計回答的是「哪個跑得快而且準」，不是「哪個在資料少時更有用」。

誰會選錯

習慣「把兩個模型都拿去全資料跑一遍，看誰準確率高」的考生。這種比法在工業界常見，但無法揭露架構本質差異，特別是在資料稀缺場景。題目明確說「資料利用效率與泛化能力」，這就是在暗示要用低資源設定。

C使用 GAN 自動生成文本樣本補足資料，觀察兩模型在資料增強後的精確率（Precision）差異

字面在說什麼

用 GAN 生成更多文本資料，讓兩個模型都用增強後的資料訓練，比精確率。

為什麼不對

引入 GAN 生成資料是第三個變數，會干擾兩個模型之間的比較。你不知道差異是來自「模型架構本身」還是「GAN 生成的品質」。此外，GAN 生成文字的品質本身就是一個研究問題，生成資料未必能代表真實分佈。這個實驗設計沒有控制變數，得出的結論不乾淨。

誰會選錯

知道「資料少就用資料增強」這個直覺的考生，把 GAN 增強當成解決資料不足的萬能藥。但這題要的是「比較兩個模型的本質差異」，不是「幫兩個模型都找資料增強的方法」。引入 GAN 反而讓比較不公平。

D在相同訓練資料上固定輸入維度，僅調整模型參數量，比較其對過擬合的敏感度

字面在說什麼

把模型做大做小，看哪種方案對過擬合更敏感。

為什麼不對

過擬合敏感度和「資料利用效率」「泛化能力」是不同面向。比較過擬合敏感度，需要固定架構類型去調參數量，但這個實驗設計會把兩個方案各自的架構特性混在一起，比的是「大模型 vs 小模型」而不是「生成式架構 vs 鑑別式架構」。題目要的是架構本質差異，不是容量調節差異。

變分自編碼器（Variational Autoencoder）本題方案 A 的核心架構，透過潛在語意空間表示文字，能利用無標注資料學習分佈，在資料稀缺時展現優勢。
半監督學習（Semi-supervised Learning）同時利用有標注與無標注資料訓練；VAE 路徑本質是半監督學習，標注稀缺時比純監督式 BERT 更有資料效率。
F1 分數（F1 Score）精確率與召回率的調和平均，比 Accuracy 對類別不均衡更穩健；多分類低資源實驗的首選評估指標。
BERT（雙向編碼器表示）本題方案 B 鑑別式路徑的核心，預訓練語言模型直接監督分類；資料充足時優勢大，資料量減少後與生成式路徑差距拉開。
少樣本學習（Few-shot Learning）在極少標注資料下完成任務，是 VAE 路徑設計優勢的延伸概念；評估不同資料量下的模型表現是突顯本質差異的核心手段。