iPAS AI 應用規劃師中級　科目一

資料增強讓模型效能下降，是哪裡出了問題？

原題 09

某企業在訓練生成式 AI 模型時，導入資料增強（Data Augmentation）技術以擴充訓練資料，但觀察到模型效能反而下降。下列哪一項最可能的原因與對應改善策略最為正確？

白話

一家公司用「資料增強」（Data Augmentation）技術幫 AI 製造更多訓練資料，結果反而讓 AI 的表現變差。

「資料增強」就是把現有資料加工，例如把照片翻轉、旋轉、加雜訊，製造出更多「變體」讓 AI 學習。

問你：效能反而下降，最可能的原因是什麼？對應的改善策略又是什麼？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

資料增強讓效能下降，最可能的原因是增強後的資料特徵分佈和原始資料不一樣，模型學到的「規律」在真實資料上用不上去，泛化能力（Generalization）因此降低。改善方式是檢查增強策略，確保增強後的資料在語意上仍和原始資料一致。

02　情境

先感受問題：把照片翻過來，貓還是貓嗎？

「語流 AI」是一家做文字生成模型的公司，他們想訓練一個能寫商品描述的 AI，原始訓練資料是 10,000 筆真實商品描述。

工程師說：「資料太少了，我用資料增強製造更多訓練樣本！」他用以下方式增強文字資料：

原始句子：「這款耳機音質清晰，佩戴舒適，適合長時間使用。」
增強版本（隨機刪除某些詞）：「這款耳機音質，佩戴，適合長時間。」
增強版本（隨機替換同義詞）：「這款頭戴裝置音質清晰，穿戴舒服，適合長時間使用。」

問題出在第一種增強：刪詞之後，句子語意破碎，不像是真實商品描述，語法模式也完全不同。

模型從這種「殘缺」資料學到了奇怪的規律：認為商品描述可以詞語不連貫、可以省略動詞。結果在真實評估時，生成的文字品質反而下降了。

這就是「特徵分佈不一致」的問題：增強後的資料和真實資料的分佈不一樣，學到的特徵對真實資料沒有用。

03　對照

沒注意資料分佈，增強反而有害的 5 個坑

增強改變了語意標籤的真實性：文字增強時如果隨機刪詞或換詞，原本「正面評價」的句子可能變成語意不明，但標籤還掛著「正面」，訓練訊號就有誤。
圖片增強超出現實範圍：把醫療 X 光片旋轉 180 度，原本「腫瘤在左上角」的標籤就不對了，或者產生現實中不存在的角度讓模型學到無用規律。
增強比例太高壓過原始資料：如果 90% 都是增強資料，只有 10% 是真實資料，模型「以為」增強資料才是真實世界，反而對真實資料表現差。
增強策略套錯域：電商商品圖的增強策略（隨機裁切、色彩偏移）直接用到醫療影像，可能讓醫療 AI 學到「腫瘤可以是各種顏色」，完全偏離醫療現實。
沒有驗證增強後的分佈：工程師加了增強就直接訓練，從來沒有用 t-SNE 或分佈統計確認增強資料和原始資料的分佈是否對齊，發現效能下降才回頭追原因。

04　解法

正確的資料增強：確保增強後語意不變、分佈對齊

語流 AI 的工程師重新設計增強策略，確保每種增強方式都「保留語意」：

回譯增強（Back-translation）：把中文翻成英文再翻回中文，語法可能有微小變化，但語意完整保留，是文字增強最常用的安全方式。

同義詞替換：只替換不影響語意的詞，例如「耳機」換「頭戴式音響」，語意相同，分佈才接近原始資料。

分佈驗證步驟：增強完之後，用統計測試（如 KL Divergence 比較詞頻分佈）確認增強後的資料和原始資料分佈差距在容許範圍內。

效能下降的根本原因是「增強後資料的特徵分佈與原始資料不一致，影響模型的泛化能力」，改善方式是「檢查並調整增強策略以維持語意一致性」。

這就是選項 B 講的：增強後資料的特徵分佈與原始資料不一致，影響模型的泛化能力，應檢查並調整增強策略以維持語意一致性。

技術版：特徵分佈與泛化能力的關係

本題沒有複雜公式，但相關技術背景值得知道。

資料增強的正確使用條件

資料增強（Data Augmentation）的前提假設是：增強後的樣本和原始樣本應在同一個語意空間（Semantic Space）裡，也就是「雖然表面形式變了，但核心特徵和標籤仍然正確」。

常見增強方式的適用性比較

增強方式	適用場景	風險
圖片水平翻轉	一般物件辨識	文字辨識會破壞語意
色彩抖動	自然場景分類	醫療影像（顏色有診斷意義）不適用
文字回譯	NLP 任務	專業術語翻譯不準確
隨機刪詞	克漏字預訓練	直接用於有監督分類會破壞語意
Mixup	圖片分類	標籤是混合比例，需特殊損失函數

分佈一致性的量化方法

KL Divergence（Kullback-Leibler 散度）：衡量增強資料分佈 Q 和原始資料分佈 P 之間的差距。值越小代表分佈越接近。

KL(P || Q) = Σ P(x) × log(P(x) / Q(x))

如果 KL Divergence 很大，代表增強策略破壞了原始分佈，需要重新設計。

泛化能力（Generalization）的概念

泛化能力指模型在「訓練時沒見過的資料」上的表現。如果增強後的訓練資料和真實測試資料的分佈差很多（Distribution Shift），模型就算在訓練資料上表現完美，在測試資料上也會失敗，這就是泛化能力下降的本質。

05　陷阱

為什麼其他選項是錯的

選項 A　未隨機初始化導致梯度不穩定

字面在說什麼：增強樣本沒有做隨機初始化，所以梯度更新變得不穩定，要重新設計訓練啟動流程。

為什麼不對：「隨機初始化」是模型權重的初始化方式（例如 Xavier 初始化），和資料增強完全無關。增強樣本不存在「有沒有初始化」的問題，初始化是訓練前的模型設定，不是資料處理步驟。把兩個完全不同的概念混在一起了。

誰會選錯：對深度學習訓練流程不熟悉，聽到「梯度不穩定」覺得有道理就選的人。梯度不穩定通常是學習率太高、Batch Normalization 設定不對或梯度爆炸，和資料增強無關。

選項 C　增強比例過高應提高增強比例

字面在說什麼：增強樣本佔比太多，導致模型偏好特定資料，改善方法是「提高增強比例並調整學習率」。

為什麼不對：前半段（增強比例過高有問題）的方向是對的，但改善策略說「應適度提高增強比例」，這和前提矛盾：如果問題是增強比例過高，解法應該是降低比例，不是繼續提高。這是選項內部自相矛盾的設計。

誰會選錯：只讀了「增強樣本比例過高，造成模型偏好」這個前半段，覺得有道理，沒有仔細看後半段改善策略自相矛盾的人。

選項 D　標註可信度下降用半監督學習校正

字面在說什麼：資料增強後，標籤的可信度下降，訓練訊號偏差，要用半監督學習重新校正。

為什麼不對：資料增強通常是從原始有標籤資料生成新樣本，標籤是直接複製原始樣本的，不存在「標籤可信度下降」的問題（除非增強方式本身改變了語意，但那就是選項 B 的問題，不是標籤可信度問題）。半監督學習是用來處理「大量無標籤資料」的方法，用在這裡不對題。

誰會選錯：聽說過半監督學習，覺得「標籤問題就用半監督」是萬能解法的人。半監督學習是特定場景的工具，不是標籤問題的通用解。

06　變形

同個考點下次怎麼變形

變形 1　邊界

直覺：如果增強資料和原始資料的分佈完全一樣，增強還有用嗎？

答案：有用，因為即使分佈一樣，增加樣本數仍然能降低模型的變異數（Variance），讓模型對稀少樣本的估計更穩定。但邊際效用遞減，一直增加相同分佈的資料效益會越來越小，這時應考慮收集真正多樣的真實資料。

變形 2　反例

直覺：什麼情況下資料增強一定會讓模型效能下降？

答案：當任務的核心特徵和增強操作直接衝突時，例如：辨識文字方向（正倒轉）的模型使用了旋轉增強、醫療影像中顏色有診斷意義但使用了隨機色彩偏移、情感分析資料使用了破壞語意的隨機刪詞。這些情況下增強不僅無用，反而會引入錯誤訊號。

變形 3　升級版

直覺：生成式 AI 模型的資料增強和傳統 CNN 的圖片增強有什麼根本不同？

答案：傳統 CNN 的增強主要操作空間（位置、色彩），語意相對穩定。生成式模型的訓練資料（文字、對話）語意更脆弱，稍微改動就可能改變情感或語意，所以文字增強策略更保守，常用回譯、改寫而非刪詞。此外，生成式模型關注輸出的流暢性，被破壞語法的訓練資料影響更大。

變形 4　跨領域

直覺：語言模型（LLM）的預訓練本身就是一種「增強」嗎？

答案：可以這樣理解。LLM 的 Masked Language Modeling（遮蔽語言模型）訓練，本質上是把原始文字「遮蔽部分詞語」生成訓練樣本，類似資料增強。關鍵是這種增強設計確保了「遮蔽後的語境和目標詞的語意關係」在原始資料中是存在的，分佈一致性有保障。

變形 5　評估指標

直覺：要怎麼確認增強策略有效（而非有害）？

答案：設計對照實驗：訓練三個版本的模型：1）無增強、2）新增強策略、3）原始增強策略，在相同的驗證集（Validation Set）和測試集（Test Set）上比較。如果新增強策略在驗證集提升但測試集下降，代表增強導致了分佈偏移（Distribution Shift），需要重新設計。

07　延伸

想再往下看，這 5 個

資料擴增術（Data Augmentation）核心考點：對現有資料施加轉換人工擴充訓練集，若增強後分佈與原始語意不一致會導致效能下降。
泛化能力（Generalization）資料增強的主要目的：讓模型在訓練集外的資料也能正確運作，增強設計不當反而會降低泛化能力。
過擬合（Overfitting）資料增強要解決的主要問題，模型過度記憶訓練資料特徵而無法推廣，是效能下降的對照參考概念。
資料漂移（Data Drift）與增強引入的分佈偏移相近的概念，指訓練資料與實際部署資料統計分佈不一致，影響模型效能的根本原因。
合成數據（Synthetic Data）資料增強的延伸概念，用程式生成全新訓練樣本，同樣面臨合成資料分佈是否忠實反映真實資料的問題。