低資源語言過擬合,怎麼不加真實語料就改善泛化?
某研究團隊正在訓練一個針對低資源語言(如少數民族語言)的語言模型,但該語言僅有約 1 萬筆語料可用。在訓練過程中出現明顯的過擬合現象,若希望在不新增真實語料的前提下提升模型的泛化能力,採用下列哪一種方法最為適合?
一個研究團隊要訓練一個「少數民族語言」的 AI 語言模型,但這個語言的文字資料(語料)只有約 1 萬筆。資料太少,模型過擬合了,也就是「死記硬背訓練資料」,沒辦法舉一反三。
限制條件:不能加入新的真實語料。
問你:哪個方法最能改善泛化能力?
一句話總結
低資源語言過擬合、又不能加真實語料的解法:用反向翻譯(Back-Translation)自動製造「偽平行語料」,讓模型有更多句子可以學,等於無中生有地擴充訓練資料。
先感受問題:只有 1 萬句,模型就開始死背了
假設「語岸」研究室正在訓練一個台灣原住民泰雅語(Atayal)的語言模型,目標是讓模型能翻譯泰雅語與中文之間的句子。
現有語料:
泰雅語句子 2:「Musa' su' qani?」→ 中文:「你要去哪裡?」
……共 1 萬筆
訓練幾輪後,模型的訓練集準確率 95%,驗證集準確率 55%。典型的過擬合:模型把這 1 萬筆幾乎背下來,但碰到新句子就翻錯。
問題在哪?1 萬筆對語言模型來說少得可憐,連基本的語法組合都沒覆蓋完。但語岸研究室找不到更多真實的泰雅語文字,田野調查要花幾年。
這時,反向翻譯出現了:不需要人去蒐集,讓機器自己製造句子。
為什麼一般的解法在這裡行不通
碰到過擬合,通常有這幾個方向,但這個場景下都有問題:
- 加真實語料:題目明確禁止,而且低資源語言本來就找不到。
- 擴大模型(選項 A 的方向):模型越大,參數越多,過擬合只會更嚴重。少資料訓大模型是火上澆油。
- 單純正則化(選項 C 的方向):L1、L2 正則化、Dropout 可以緩解過擬合,但治標不治本。根本原因是資料太少,正則化壓縮了模型能力但沒有補充見過的語言多樣性,能改善幅度有限。
- 凍結所有層(選項 D 的方向):mBERT 雖然見過很多語言,但如果所有層都凍結,模型完全無法學到泰雅語的特定特徵,等於沒有訓練,翻譯品質會很差。
- 靠小資料量撐過去:就算跑很久,1 萬筆就是 1 萬種語法組合的上限,模型永遠沒辦法真正泛化。
核心問題只有一個解法:想辦法讓訓練資料多樣化,而且不能是真實資料。
反向翻譯:讓機器自己造句來訓練自己
反向翻譯(Back-Translation)的邏輯:
第一步:用現有的 1 萬筆泰雅語-中文對,先訓練一個「中文 → 泰雅語」的翻譯模型(注意方向:先從目標語到來源語)。
第二步:找大量中文句子(中文語料豐富,網路上幾億句都有),用這個「中文 → 泰雅語」模型把中文翻成泰雅語。翻出來的泰雅語不是真實的,叫做「偽平行語料」(Pseudo-Parallel Corpus)。
第三步:把原本的 1 萬筆加上這些偽平行語料,一起訓練「泰雅語 → 中文」的正向翻譯模型。
+ 偽平行語料:50 萬筆(機器翻譯的泰雅語↔中文)
= 訓練資料 51 萬筆,多樣性大幅提升
模型現在見過更多不同的句型組合,不再死背那 1 萬筆,泛化能力提升。
這就是選項 B 講的:採用反向翻譯(Back-Translation)技術,以生成額外目標語句的偽平行語料(Pseudo-Parallel Corpus)。
技術版:Back-Translation 的完整機制與偽平行語料的品質控制
中級考試大概率會考程式碼跟公式,所以這部分你還是要學。但如果現在學起來很痛苦,可以先跳過,等讀完其他題目回頭再來。
本題沒有程式碼或數學公式,技術版重點放在 Back-Translation 的完整技術背景。
Back-Translation 最早由 Sennrich et al.(2016)提出,專門為低資源神經機器翻譯(Neural Machine Translation,NMT)設計,後來被廣泛用於各種 NLP 資料增強場景。
完整流程:
- 訓練反向模型(Backward Model):用少量平行語料(L_target → L_source)訓練翻譯模型,品質不必完美,能生成合理翻譯就夠。
- 收集目標語的單語語料(Monolingual Data):目標語(如泰雅語)語料少,但來源語(如中文)語料豐富,這是 BT 的關鍵前提。
- 生成偽平行語料:用反向模型把單語語料翻成目標語,得到(機器翻譯的目標語, 真實來源語)的配對。
- 混合訓練正向模型(Forward Model):原始平行語料 + 偽平行語料一起訓練,偽語料的比例通常設為原始資料的 2~5 倍。
偽平行語料的品質問題與控制方法:
- 品質過濾:用 Language Model 分數(困惑度)過濾機器翻譯品質太差的句子,只保留流暢度高於閾值的。
- Beam Search vs 取樣:研究顯示用取樣(Sampling)而非 Beam Search 生成偽語料,多樣性更高,效果更好。
- 反覆 Back-Translation(Iterative BT):每輪用改善後的模型重新生成偽語料,再訓練,如此迭代 2~3 輪,品質顯著提升。
Back-Translation 為什麼適合低資源場景:
核心優勢是「利用豐富的單語語料彌補雙語語料的稀缺」。低資源語言通常只有少量平行語料,但該語言的母語者仍有單語文本(書籍、歌謠、宗教文獻),而配對的高資源語言(如中文、英文)語料極為豐富。BT 把這個不對稱的資源差異轉化為訓練優勢。
為什麼其他選項是錯的
A將 Transformer 的隱藏層維度擴增至 1024,以提升表徵能力
讓模型變更大、參數更多,理論上能學到更複雜的語言特徵。
現在的問題是「資料太少,模型已經過擬合」,擴大模型只會讓過擬合更嚴重。就像一個學生背 1 萬道題已經死背了,給他更強的記憶力,他會背得更死更沒有活用能力。解決過擬合的方向是「增加資料多樣性」或「限制模型容量」,不是「擴大模型容量」。
知道大模型效果好(GPT-4、Llama 都很大),以為把模型做大就能解決問題的考生。但「大模型需要大資料」是配套的,資料量不變只把模型做大是反向操作。
C對詞嵌入矩陣(Embedding Matrix)施加 L1 正則化以壓縮模型參數
L1 正則化讓許多參數趨近 0(稀疏化),減少模型的有效參數數量,防止過擬合。
L1 正則化確實能緩解過擬合,但它是「壓縮模型能力」的手段,不是「增加資料多樣性」。對低資源語言,問題根源是見過的語言樣式太少,壓縮參數不能讓模型見到更多樣的句子。此外 L1 只加在詞嵌入矩陣上,效果有限,不如全域正則化。Back-Translation 是增加資料的策略,比正則化根本得多。
背過「過擬合 → 加正則化」這個反射弧的考生。正則化是對的方向之一,但在資料極少的情況下,增加資料多樣性(BT)的效果遠大於正則化,題目問的是「最適合」,所以選 C 不如選 B。
D將多語言 BERT(mBERT)中所有 Transformer 層全部凍結以保留預訓練知識
mBERT 用 104 種語言預訓練過,凍結所有層可以保留它學到的多語言知識,只訓練最上層的任務層。
凍結所有層代表模型無法從泰雅語語料中學到任何新東西,只能靠 mBERT 原本的知識。問題是 mBERT 訓練的 104 種語言中可能根本沒有或極少包含泰雅語(低資源語言的定義),凍結全部層等於完全放棄適應目標語言。正確做法是「部分凍結」:凍結底層(保留通用語言知識)、微調上層(適應目標語言),而不是全部凍結。
知道預訓練模型很強大,擔心小語料微調會破壞預訓練知識(「災難性遺忘」),所以選擇全凍結保險的考生。但全凍結是另一個極端,犧牲了所有對目標語言的適應能力。
同個考點下次怎麼變形
反向翻譯生成的偽平行語料品質很差,還有用嗎?
如果反向模型只有 1 萬筆訓練,它翻出來的句子肯定很爛,這樣的偽語料還能用?
有用,但效果有上限。研究(Sennrich 等人)顯示即使品質不完美的偽語料也能帶來翻譯品質提升,因為它提供了更多的語言結構多樣性。真正的問題是品質太差時,偽語料會引入錯誤,干擾模型學到正確語法。解法是品質過濾(用困惑度分數過濾掉最差的)和降低偽語料的權重(損失函數裡給偽語料較小的梯度更新)。
Back-Translation 在什麼情況下反而沒有效果?
BT 這麼好,難道沒有失效的場景?
當目標語言(如泰雅語)本身也沒有豐富的單語文本時,BT 就失去意義,因為沒有足夠的「來源語單語語料」可以翻譯。另外,如果任務不是機器翻譯而是純分類(如情感分析),BT 生成的偽平行語料格式不適用。BT 最適合「翻譯類任務 + 目標語稀缺但來源語豐富」的組合。
「疊代式反向翻譯」(Iterative Back-Translation)是什麼?
能不能讓 BT 的效果越來越好,而不是只跑一輪?
疊代式 BT 就是這個想法的實現:第一輪 BT 訓練好正向模型,用改善後的正向模型再訓練一個更好的反向模型,再生成更高品質的偽語料,再訓練正向模型,如此迭代。每一輪正反向模型相互提升,通常 2~3 輪後效果就開始邊際遞減。這是低資源 NMT 目前最強的資料增強策略之一。
圖像識別領域也有類似「偽資料」的做法嗎?
低資源的問題不只在 NLP,圖像也可能樣本很少?
完全對應,圖像領域叫做「資料增強」(Data Augmentation):旋轉、翻轉、裁剪、加雜訊、改顏色,把 1 張圖變成 10 張「偽圖」。更進階的是用 GAN 或 Diffusion Model 生成逼真的假圖,本質和 BT 一樣:用模型生成額外的訓練樣本。兩個領域解決資料稀缺問題的邏輯是相通的。
怎麼知道 Back-Translation 有沒有改善低資源翻譯?用什麼指標?
人工讀一讀看翻得好不好?
機器翻譯標準評估指標是 BLEU 分數(Bilingual Evaluation Understudy):把模型翻譯結果和人工參考翻譯比對,計算 n-gram 重疊率,分數 0~100,越高越好。BT 引入後,如果 BLEU 分數在驗證集上提升(特別是訓練集和驗證集的 BLEU 差距縮小),代表泛化能力確實改善了。另外也可以看困惑度(Perplexity)在驗證集上的下降。
想再往下看,這 5 個
- 資料擴增術(Data Augmentation)正解核心:Back-Translation 是 NLP 最重要的資料增強手段,讓 1 萬筆語料擴充為數十萬筆偽平行語料以改善泛化。
- 機器翻譯(Machine Translation)本題的任務類型,Back-Translation 利用翻譯模型雙向互用來製造偽語料,是低資源 NMT 的標準改善策略。
- 過擬合(Overfitting)本題要解決的問題:語料僅 1 萬筆導致模型死記訓練資料,增加偽語料多樣性是比正則化更根本的解法。
- 遷移學習(Transfer Learning)低資源語言的另一條路:從多語言預訓練模型(如 mBERT)出發部分微調,和 Back-Translation 同為低資源場景主流方案。
- BERT(Bidirectional Encoder Representations from Transformers)多語言版 mBERT 是低資源語言常用起點,全凍結(錯選項 D)vs 部分微調的辨析是本題易混淆考點。