iPAS AI 應用規劃師中級　科目一

低資源語言過擬合，怎麼不加真實語料就改善泛化？

原題 19

某研究團隊正在訓練一個針對低資源語言（如少數民族語言）的語言模型，但該語言僅有約 1 萬筆語料可用。在訓練過程中出現明顯的過擬合現象，若希望在不新增真實語料的前提下提升模型的泛化能力，採用下列哪一種方法最為適合？

白話

一個研究團隊要訓練一個「少數民族語言」的 AI 語言模型，但這個語言的文字資料（語料）只有約 1 萬筆。資料太少，模型過擬合了，也就是「死記硬背訓練資料」，沒辦法舉一反三。

限制條件：不能加入新的真實語料。

問你：哪個方法最能改善泛化能力？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

低資源語言過擬合、又不能加真實語料的解法：用反向翻譯（Back-Translation）自動製造「偽平行語料」，讓模型有更多句子可以學，等於無中生有地擴充訓練資料。

02　情境

先感受問題：只有 1 萬句，模型就開始死背了

假設「語岸」研究室正在訓練一個台灣原住民泰雅語（Atayal）的語言模型，目標是讓模型能翻譯泰雅語與中文之間的句子。

現有語料：

泰雅語句子 1：「Simu nanu maku.」→ 中文：「這是我的東西。」
泰雅語句子 2：「Musa' su' qani?」→ 中文：「你要去哪裡？」
……共 1 萬筆

訓練幾輪後，模型的訓練集準確率 95%，驗證集準確率 55%。典型的過擬合：模型把這 1 萬筆幾乎背下來，但碰到新句子就翻錯。

問題在哪？1 萬筆對語言模型來說少得可憐，連基本的語法組合都沒覆蓋完。但語岸研究室找不到更多真實的泰雅語文字，田野調查要花幾年。

這時，反向翻譯出現了：不需要人去蒐集，讓機器自己製造句子。

03　對照

為什麼一般的解法在這裡行不通

碰到過擬合，通常有這幾個方向，但這個場景下都有問題：

加真實語料：題目明確禁止，而且低資源語言本來就找不到。
擴大模型（選項 A 的方向）：模型越大，參數越多，過擬合只會更嚴重。少資料訓大模型是火上澆油。
單純正則化（選項 C 的方向）：L1、L2 正則化、Dropout 可以緩解過擬合，但治標不治本。根本原因是資料太少，正則化壓縮了模型能力但沒有補充見過的語言多樣性，能改善幅度有限。
凍結所有層（選項 D 的方向）：mBERT 雖然見過很多語言，但如果所有層都凍結，模型完全無法學到泰雅語的特定特徵，等於沒有訓練，翻譯品質會很差。
靠小資料量撐過去：就算跑很久，1 萬筆就是 1 萬種語法組合的上限，模型永遠沒辦法真正泛化。

核心問題只有一個解法：想辦法讓訓練資料多樣化，而且不能是真實資料。

04　解法

反向翻譯：讓機器自己造句來訓練自己

反向翻譯（Back-Translation）的邏輯：

第一步：用現有的 1 萬筆泰雅語-中文對，先訓練一個「中文 → 泰雅語」的翻譯模型（注意方向：先從目標語到來源語）。

第二步：找大量中文句子（中文語料豐富，網路上幾億句都有），用這個「中文 → 泰雅語」模型把中文翻成泰雅語。翻出來的泰雅語不是真實的，叫做「偽平行語料」（Pseudo-Parallel Corpus）。

第三步：把原本的 1 萬筆加上這些偽平行語料，一起訓練「泰雅語 → 中文」的正向翻譯模型。

原始語料：1 萬筆（真實泰雅語↔中文）
+ 偽平行語料：50 萬筆（機器翻譯的泰雅語↔中文）
= 訓練資料 51 萬筆，多樣性大幅提升

模型現在見過更多不同的句型組合，不再死背那 1 萬筆，泛化能力提升。

這就是選項 B 講的：採用反向翻譯（Back-Translation）技術，以生成額外目標語句的偽平行語料（Pseudo-Parallel Corpus）。

技術版：Back-Translation 的完整機制與偽平行語料的品質控制

中級考試大概率會考程式碼跟公式，所以這部分你還是要學。但如果現在學起來很痛苦，可以先跳過，等讀完其他題目回頭再來。

本題沒有程式碼或數學公式，技術版重點放在 Back-Translation 的完整技術背景。

Back-Translation 最早由 Sennrich et al.（2016）提出，專門為低資源神經機器翻譯（Neural Machine Translation，NMT）設計，後來被廣泛用於各種 NLP 資料增強場景。

完整流程：

訓練反向模型（Backward Model）：用少量平行語料（L_target → L_source）訓練翻譯模型，品質不必完美，能生成合理翻譯就夠。
收集目標語的單語語料（Monolingual Data）：目標語（如泰雅語）語料少，但來源語（如中文）語料豐富，這是 BT 的關鍵前提。
生成偽平行語料：用反向模型把單語語料翻成目標語，得到（機器翻譯的目標語, 真實來源語）的配對。
混合訓練正向模型（Forward Model）：原始平行語料 + 偽平行語料一起訓練，偽語料的比例通常設為原始資料的 2~5 倍。

偽平行語料的品質問題與控制方法：

品質過濾：用 Language Model 分數（困惑度）過濾機器翻譯品質太差的句子，只保留流暢度高於閾值的。
Beam Search vs 取樣：研究顯示用取樣（Sampling）而非 Beam Search 生成偽語料，多樣性更高，效果更好。
反覆 Back-Translation（Iterative BT）：每輪用改善後的模型重新生成偽語料，再訓練，如此迭代 2~3 輪，品質顯著提升。

Back-Translation 為什麼適合低資源場景：

核心優勢是「利用豐富的單語語料彌補雙語語料的稀缺」。低資源語言通常只有少量平行語料，但該語言的母語者仍有單語文本（書籍、歌謠、宗教文獻），而配對的高資源語言（如中文、英文）語料極為豐富。BT 把這個不對稱的資源差異轉化為訓練優勢。

05　陷阱

為什麼其他選項是錯的

A將 Transformer 的隱藏層維度擴增至 1024，以提升表徵能力

字面在說什麼

讓模型變更大、參數更多，理論上能學到更複雜的語言特徵。

為什麼不對

現在的問題是「資料太少，模型已經過擬合」，擴大模型只會讓過擬合更嚴重。就像一個學生背 1 萬道題已經死背了，給他更強的記憶力，他會背得更死更沒有活用能力。解決過擬合的方向是「增加資料多樣性」或「限制模型容量」，不是「擴大模型容量」。

誰會選錯

知道大模型效果好（GPT-4、Llama 都很大），以為把模型做大就能解決問題的考生。但「大模型需要大資料」是配套的，資料量不變只把模型做大是反向操作。

C對詞嵌入矩陣（Embedding Matrix）施加 L1 正則化以壓縮模型參數

字面在說什麼

L1 正則化讓許多參數趨近 0（稀疏化），減少模型的有效參數數量，防止過擬合。

為什麼不對

L1 正則化確實能緩解過擬合，但它是「壓縮模型能力」的手段，不是「增加資料多樣性」。對低資源語言，問題根源是見過的語言樣式太少，壓縮參數不能讓模型見到更多樣的句子。此外 L1 只加在詞嵌入矩陣上，效果有限，不如全域正則化。Back-Translation 是增加資料的策略，比正則化根本得多。

誰會選錯

背過「過擬合 → 加正則化」這個反射弧的考生。正則化是對的方向之一，但在資料極少的情況下，增加資料多樣性（BT）的效果遠大於正則化，題目問的是「最適合」，所以選 C 不如選 B。

D將多語言 BERT（mBERT）中所有 Transformer 層全部凍結以保留預訓練知識

字面在說什麼

mBERT 用 104 種語言預訓練過，凍結所有層可以保留它學到的多語言知識，只訓練最上層的任務層。

為什麼不對

凍結所有層代表模型無法從泰雅語語料中學到任何新東西，只能靠 mBERT 原本的知識。問題是 mBERT 訓練的 104 種語言中可能根本沒有或極少包含泰雅語（低資源語言的定義），凍結全部層等於完全放棄適應目標語言。正確做法是「部分凍結」：凍結底層（保留通用語言知識）、微調上層（適應目標語言），而不是全部凍結。

誰會選錯

知道預訓練模型很強大，擔心小語料微調會破壞預訓練知識（「災難性遺忘」），所以選擇全凍結保險的考生。但全凍結是另一個極端，犧牲了所有對目標語言的適應能力。

06　變形

同個考點下次怎麼變形

變形 1　邊界

反向翻譯生成的偽平行語料品質很差，還有用嗎？

直覺

如果反向模型只有 1 萬筆訓練，它翻出來的句子肯定很爛，這樣的偽語料還能用？

答案

有用，但效果有上限。研究（Sennrich 等人）顯示即使品質不完美的偽語料也能帶來翻譯品質提升，因為它提供了更多的語言結構多樣性。真正的問題是品質太差時，偽語料會引入錯誤，干擾模型學到正確語法。解法是品質過濾（用困惑度分數過濾掉最差的）和降低偽語料的權重（損失函數裡給偽語料較小的梯度更新）。

變形 2　反例

Back-Translation 在什麼情況下反而沒有效果？

直覺

BT 這麼好，難道沒有失效的場景？

答案

當目標語言（如泰雅語）本身也沒有豐富的單語文本時，BT 就失去意義，因為沒有足夠的「來源語單語語料」可以翻譯。另外，如果任務不是機器翻譯而是純分類（如情感分析），BT 生成的偽平行語料格式不適用。BT 最適合「翻譯類任務 + 目標語稀缺但來源語豐富」的組合。

變形 3　升級版

「疊代式反向翻譯」（Iterative Back-Translation）是什麼？

直覺

能不能讓 BT 的效果越來越好，而不是只跑一輪？

答案

疊代式 BT 就是這個想法的實現：第一輪 BT 訓練好正向模型，用改善後的正向模型再訓練一個更好的反向模型，再生成更高品質的偽語料，再訓練正向模型，如此迭代。每一輪正反向模型相互提升，通常 2~3 輪後效果就開始邊際遞減。這是低資源 NMT 目前最強的資料增強策略之一。

變形 4　跨領域

圖像識別領域也有類似「偽資料」的做法嗎？

直覺

低資源的問題不只在 NLP，圖像也可能樣本很少？

答案

完全對應，圖像領域叫做「資料增強」（Data Augmentation）：旋轉、翻轉、裁剪、加雜訊、改顏色，把 1 張圖變成 10 張「偽圖」。更進階的是用 GAN 或 Diffusion Model 生成逼真的假圖，本質和 BT 一樣：用模型生成額外的訓練樣本。兩個領域解決資料稀缺問題的邏輯是相通的。

變形 5　評估指標

怎麼知道 Back-Translation 有沒有改善低資源翻譯？用什麼指標？

直覺

人工讀一讀看翻得好不好？

答案

機器翻譯標準評估指標是 BLEU 分數（Bilingual Evaluation Understudy）：把模型翻譯結果和人工參考翻譯比對，計算 n-gram 重疊率，分數 0~100，越高越好。BT 引入後，如果 BLEU 分數在驗證集上提升（特別是訓練集和驗證集的 BLEU 差距縮小），代表泛化能力確實改善了。另外也可以看困惑度（Perplexity）在驗證集上的下降。

07　延伸

想再往下看，這 5 個

資料擴增術（Data Augmentation）正解核心：Back-Translation 是 NLP 最重要的資料增強手段，讓 1 萬筆語料擴充為數十萬筆偽平行語料以改善泛化。
機器翻譯（Machine Translation）本題的任務類型，Back-Translation 利用翻譯模型雙向互用來製造偽語料，是低資源 NMT 的標準改善策略。
過擬合（Overfitting）本題要解決的問題：語料僅 1 萬筆導致模型死記訓練資料，增加偽語料多樣性是比正則化更根本的解法。
遷移學習（Transfer Learning）低資源語言的另一條路：從多語言預訓練模型（如 mBERT）出發部分微調，和 Back-Translation 同為低資源場景主流方案。
BERT（Bidirectional Encoder Representations from Transformers）多語言版 mBERT 是低資源語言常用起點，全凍結（錯選項 D）vs 部分微調的辨析是本題易混淆考點。