iPAS AI 應用規劃師 中級 科目一

低資源語言過擬合,怎麼不加真實語料就改善泛化?

原題 19

某研究團隊正在訓練一個針對低資源語言(如少數民族語言)的語言模型,但該語言僅有約 1 萬筆語料可用。在訓練過程中出現明顯的過擬合現象,若希望在不新增真實語料的前提下提升模型的泛化能力,採用下列哪一種方法最為適合?

白話

一個研究團隊要訓練一個「少數民族語言」的 AI 語言模型,但這個語言的文字資料(語料)只有約 1 萬筆。資料太少,模型過擬合了,也就是「死記硬背訓練資料」,沒辦法舉一反三。

限制條件:不能加入新的真實語料

問你:哪個方法最能改善泛化能力?

點選你的答案。

01 總結

一句話總結

低資源語言過擬合、又不能加真實語料的解法:用反向翻譯(Back-Translation)自動製造「偽平行語料」,讓模型有更多句子可以學,等於無中生有地擴充訓練資料

02 情境

先感受問題:只有 1 萬句,模型就開始死背了

假設「語岸」研究室正在訓練一個台灣原住民泰雅語(Atayal)的語言模型,目標是讓模型能翻譯泰雅語與中文之間的句子。

現有語料:

泰雅語句子 1:「Simu nanu maku.」→ 中文:「這是我的東西。」
泰雅語句子 2:「Musa' su' qani?」→ 中文:「你要去哪裡?」
……共 1 萬筆

訓練幾輪後,模型的訓練集準確率 95%,驗證集準確率 55%。典型的過擬合:模型把這 1 萬筆幾乎背下來,但碰到新句子就翻錯。

問題在哪?1 萬筆對語言模型來說少得可憐,連基本的語法組合都沒覆蓋完。但語岸研究室找不到更多真實的泰雅語文字,田野調查要花幾年。

這時,反向翻譯出現了:不需要人去蒐集,讓機器自己製造句子。

03 對照

為什麼一般的解法在這裡行不通

碰到過擬合,通常有這幾個方向,但這個場景下都有問題:

  1. 加真實語料:題目明確禁止,而且低資源語言本來就找不到。
  2. 擴大模型(選項 A 的方向):模型越大,參數越多,過擬合只會更嚴重。少資料訓大模型是火上澆油。
  3. 單純正則化(選項 C 的方向):L1、L2 正則化、Dropout 可以緩解過擬合,但治標不治本。根本原因是資料太少,正則化壓縮了模型能力但沒有補充見過的語言多樣性,能改善幅度有限。
  4. 凍結所有層(選項 D 的方向):mBERT 雖然見過很多語言,但如果所有層都凍結,模型完全無法學到泰雅語的特定特徵,等於沒有訓練,翻譯品質會很差。
  5. 靠小資料量撐過去:就算跑很久,1 萬筆就是 1 萬種語法組合的上限,模型永遠沒辦法真正泛化。

核心問題只有一個解法:想辦法讓訓練資料多樣化,而且不能是真實資料。

04 解法

反向翻譯:讓機器自己造句來訓練自己

反向翻譯(Back-Translation)的邏輯:

第一步:用現有的 1 萬筆泰雅語-中文對,先訓練一個「中文 → 泰雅語」的翻譯模型(注意方向:先從目標語到來源語)。

第二步:找大量中文句子(中文語料豐富,網路上幾億句都有),用這個「中文 → 泰雅語」模型把中文翻成泰雅語。翻出來的泰雅語不是真實的,叫做「偽平行語料」(Pseudo-Parallel Corpus)。

第三步:把原本的 1 萬筆加上這些偽平行語料,一起訓練「泰雅語 → 中文」的正向翻譯模型。

原始語料:1 萬筆(真實泰雅語↔中文)
+ 偽平行語料:50 萬筆(機器翻譯的泰雅語↔中文)
= 訓練資料 51 萬筆,多樣性大幅提升

模型現在見過更多不同的句型組合,不再死背那 1 萬筆,泛化能力提升。

這就是選項 B 講的:採用反向翻譯(Back-Translation)技術,以生成額外目標語句的偽平行語料(Pseudo-Parallel Corpus)

技術版:Back-Translation 的完整機制與偽平行語料的品質控制

中級考試大概率會考程式碼跟公式,所以這部分你還是要學。但如果現在學起來很痛苦,可以先跳過,等讀完其他題目回頭再來。

本題沒有程式碼或數學公式,技術版重點放在 Back-Translation 的完整技術背景。

Back-Translation 最早由 Sennrich et al.(2016)提出,專門為低資源神經機器翻譯(Neural Machine Translation,NMT)設計,後來被廣泛用於各種 NLP 資料增強場景。

完整流程:

  1. 訓練反向模型(Backward Model):用少量平行語料(L_target → L_source)訓練翻譯模型,品質不必完美,能生成合理翻譯就夠。
  2. 收集目標語的單語語料(Monolingual Data):目標語(如泰雅語)語料少,但來源語(如中文)語料豐富,這是 BT 的關鍵前提。
  3. 生成偽平行語料:用反向模型把單語語料翻成目標語,得到(機器翻譯的目標語, 真實來源語)的配對。
  4. 混合訓練正向模型(Forward Model):原始平行語料 + 偽平行語料一起訓練,偽語料的比例通常設為原始資料的 2~5 倍。

偽平行語料的品質問題與控制方法:

  • 品質過濾:用 Language Model 分數(困惑度)過濾機器翻譯品質太差的句子,只保留流暢度高於閾值的。
  • Beam Search vs 取樣:研究顯示用取樣(Sampling)而非 Beam Search 生成偽語料,多樣性更高,效果更好。
  • 反覆 Back-Translation(Iterative BT):每輪用改善後的模型重新生成偽語料,再訓練,如此迭代 2~3 輪,品質顯著提升。

Back-Translation 為什麼適合低資源場景:

核心優勢是「利用豐富的單語語料彌補雙語語料的稀缺」。低資源語言通常只有少量平行語料,但該語言的母語者仍有單語文本(書籍、歌謠、宗教文獻),而配對的高資源語言(如中文、英文)語料極為豐富。BT 把這個不對稱的資源差異轉化為訓練優勢。

05 陷阱

為什麼其他選項是錯的

A將 Transformer 的隱藏層維度擴增至 1024,以提升表徵能力

字面在說什麼

讓模型變更大、參數更多,理論上能學到更複雜的語言特徵。

為什麼不對

現在的問題是「資料太少,模型已經過擬合」,擴大模型只會讓過擬合更嚴重。就像一個學生背 1 萬道題已經死背了,給他更強的記憶力,他會背得更死更沒有活用能力。解決過擬合的方向是「增加資料多樣性」或「限制模型容量」,不是「擴大模型容量」。

誰會選錯

知道大模型效果好(GPT-4、Llama 都很大),以為把模型做大就能解決問題的考生。但「大模型需要大資料」是配套的,資料量不變只把模型做大是反向操作。

C對詞嵌入矩陣(Embedding Matrix)施加 L1 正則化以壓縮模型參數

字面在說什麼

L1 正則化讓許多參數趨近 0(稀疏化),減少模型的有效參數數量,防止過擬合。

為什麼不對

L1 正則化確實能緩解過擬合,但它是「壓縮模型能力」的手段,不是「增加資料多樣性」。對低資源語言,問題根源是見過的語言樣式太少,壓縮參數不能讓模型見到更多樣的句子。此外 L1 只加在詞嵌入矩陣上,效果有限,不如全域正則化。Back-Translation 是增加資料的策略,比正則化根本得多。

誰會選錯

背過「過擬合 → 加正則化」這個反射弧的考生。正則化是對的方向之一,但在資料極少的情況下,增加資料多樣性(BT)的效果遠大於正則化,題目問的是「最適合」,所以選 C 不如選 B。

D將多語言 BERT(mBERT)中所有 Transformer 層全部凍結以保留預訓練知識

字面在說什麼

mBERT 用 104 種語言預訓練過,凍結所有層可以保留它學到的多語言知識,只訓練最上層的任務層。

為什麼不對

凍結所有層代表模型無法從泰雅語語料中學到任何新東西,只能靠 mBERT 原本的知識。問題是 mBERT 訓練的 104 種語言中可能根本沒有或極少包含泰雅語(低資源語言的定義),凍結全部層等於完全放棄適應目標語言。正確做法是「部分凍結」:凍結底層(保留通用語言知識)、微調上層(適應目標語言),而不是全部凍結。

誰會選錯

知道預訓練模型很強大,擔心小語料微調會破壞預訓練知識(「災難性遺忘」),所以選擇全凍結保險的考生。但全凍結是另一個極端,犧牲了所有對目標語言的適應能力。

06 變形

同個考點下次怎麼變形

變形 1 邊界

反向翻譯生成的偽平行語料品質很差,還有用嗎?

直覺

如果反向模型只有 1 萬筆訓練,它翻出來的句子肯定很爛,這樣的偽語料還能用?

答案

有用,但效果有上限。研究(Sennrich 等人)顯示即使品質不完美的偽語料也能帶來翻譯品質提升,因為它提供了更多的語言結構多樣性。真正的問題是品質太差時,偽語料會引入錯誤,干擾模型學到正確語法。解法是品質過濾(用困惑度分數過濾掉最差的)和降低偽語料的權重(損失函數裡給偽語料較小的梯度更新)。

變形 2 反例

Back-Translation 在什麼情況下反而沒有效果?

直覺

BT 這麼好,難道沒有失效的場景?

答案

當目標語言(如泰雅語)本身也沒有豐富的單語文本時,BT 就失去意義,因為沒有足夠的「來源語單語語料」可以翻譯。另外,如果任務不是機器翻譯而是純分類(如情感分析),BT 生成的偽平行語料格式不適用。BT 最適合「翻譯類任務 + 目標語稀缺但來源語豐富」的組合。

變形 3 升級版

「疊代式反向翻譯」(Iterative Back-Translation)是什麼?

直覺

能不能讓 BT 的效果越來越好,而不是只跑一輪?

答案

疊代式 BT 就是這個想法的實現:第一輪 BT 訓練好正向模型,用改善後的正向模型再訓練一個更好的反向模型,再生成更高品質的偽語料,再訓練正向模型,如此迭代。每一輪正反向模型相互提升,通常 2~3 輪後效果就開始邊際遞減。這是低資源 NMT 目前最強的資料增強策略之一。

變形 4 跨領域

圖像識別領域也有類似「偽資料」的做法嗎?

直覺

低資源的問題不只在 NLP,圖像也可能樣本很少?

答案

完全對應,圖像領域叫做「資料增強」(Data Augmentation):旋轉、翻轉、裁剪、加雜訊、改顏色,把 1 張圖變成 10 張「偽圖」。更進階的是用 GAN 或 Diffusion Model 生成逼真的假圖,本質和 BT 一樣:用模型生成額外的訓練樣本。兩個領域解決資料稀缺問題的邏輯是相通的。

變形 5 評估指標

怎麼知道 Back-Translation 有沒有改善低資源翻譯?用什麼指標?

直覺

人工讀一讀看翻得好不好?

答案

機器翻譯標準評估指標是 BLEU 分數(Bilingual Evaluation Understudy):把模型翻譯結果和人工參考翻譯比對,計算 n-gram 重疊率,分數 0~100,越高越好。BT 引入後,如果 BLEU 分數在驗證集上提升(特別是訓練集和驗證集的 BLEU 差距縮小),代表泛化能力確實改善了。另外也可以看困惑度(Perplexity)在驗證集上的下降。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 114 年第二次 iPAS AI 應用規劃師 中級 科目一 第 19 題

查看官方原文 PDF