iPAS AI 應用規劃師初級　科目一　人工智慧基礎概論

過擬合問題怎麼用資料增強解決？

原題 20

某團隊訓練影像分類模型，發現模型在訓練資料上的準確率達 98%，但在測試資料上僅有 72%。若團隊希望提升模型對新資料的適應能力，並增加訓練資料的多樣性，下列何者最適合？

白話

一個團隊訓練影像分類模型，發現模型在訓練資料上準確率 98%，但在測試資料上只有 72%，兩者落差很大。

團隊希望改善這個狀況，目標是提升模型對新資料的適應能力，並增加訓練資料的多樣性。

問你：為了達到「提升對新資料適應能力、增加訓練資料多樣性」的目標，下列哪個做法最合適？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

訓練準確率高、測試準確率低是過擬合（Overfitting），解法是讓模型看到更多樣的資料。對訓練影像做旋轉、翻轉等隨機變化（Data Augmentation）能直接增加資料多樣性，讓模型學到更通用的特徵。

02　情境

先感受問題：模型「死背」訓練資料，真正上場卻不行

「台灣智農科技」的工程師林宗翰在做番茄病害辨識系統。訓練集有 2,000 張得病番茄照片，都是在溫室裡、固定光源、正面角度拍的。

模型訓練完後：在這 2,000 張上準確率 98%，在田間實拍的新照片上卻只有 72%。

問題出在哪？模型把訓練圖片的細節都「背起來了」，包含背景、光線角度等跟病害無關的特徵。遇到斜角度、不同光線、不同品種的番茄，就認不出來。

解法：讓模型在訓練時就見過各種角度和光線的番茄，但重拍 2,000 張太費工，更聰明的方法是把現有照片旋轉、翻轉、調亮暗，變成更多樣的訓練資料。

03　對照

過擬合的成因：模型太「死心眼」

林宗翰的模型出現過擬合，有幾個根本原因：

訓練資料太少：只有 2,000 張，而且都是相似情況拍的，缺乏多樣性
模型複雜度過高：深度神經網路學習能力太強，把雜訊和不相關特徵都學進去了
資料分布單一：全是正面固定光源，模型沒見過側面、逆光、局部遮擋的情況
訓練太久：訓練輪次過多，模型從「學規律」變成「背答案」
沒有正規化：沒有用 Dropout 或 L2 正規化來防止模型過度複雜化

過擬合不是單一原因造成的，但最快的解法通常是從「資料多樣性」下手。

04　解法

資料增強：用舊照片「變」出新視角

林宗翰採用資料增強（Data Augmentation）：把現有的 2,000 張照片，用程式自動生成各種變體。

旋轉（Rotation）：把每張番茄照片旋轉 90°、180°、270°，這樣同一張照片變成 4 張，而且模型學到「不管番茄怎麼轉，都是同樣的病害」。

翻轉（Flip）：水平和垂直翻轉，同樣一張照片再多一倍。

亮度調整：模擬不同光線條件，讓模型認識強光和暗光下的病害特徵。

裁剪和縮放：讓模型學習不管病斑大小和位置，都能認出來。

2,000 張原始照片，經過增強後變成 20,000 張多樣化訓練資料，而且沒有額外的拍照成本。模型見過各種變體後，再看到田間的新照片，就不容易認不出來了。

這就是選項 B 的正確理由：對訓練影像進行旋轉、翻轉等隨機變化，是資料增強的核心操作，直接增加訓練資料的多樣性，改善過擬合。

技術版：過擬合的診斷與解法全景

過擬合（Overfitting）是機器學習最常見的問題，診斷方式是看「訓練準確率明顯高於驗證/測試準確率」的落差（本題是 26%）。

常見的解決方案（初級需理解概念）：

資料增強（Data Augmentation）：用現有資料做變換增加多樣性（本題答案）
正規化（Regularization）：L1/L2 正規化限制模型參數大小，Dropout 隨機關閉部分神經元
早停（Early Stopping）：監控驗證集損失，一旦開始變差就停止訓練
減少模型複雜度：減少層數或參數量，讓模型沒有能力記憶細節
收集更多真實資料：根本解法，但成本高

資料增強的適用範圍：對影像分類效果最顯著（旋轉、翻轉、色彩變換）。對文字也有增強方法（同義詞替換、回翻譯），但效果相對有限。

欠擬合（Underfitting）vs 過擬合：欠擬合是訓練和測試準確率都低（模型太簡單，學不到特徵）；過擬合是訓練高測試低（模型太複雜，把噪音都學進去了）。解法方向相反：欠擬合要增加複雜度，過擬合要降低複雜度或增加資料多樣性。

為什麼出題者考這題：過擬合是 AI 模型部署失敗最常見的原因之一，規劃師必須能識別這個問題並知道有哪些解法，在與工程師溝通時有基本概念。

05　陷阱

為什麼其他選項是錯的

A增加模型的深度與參數量，使模型學習更細節

字面在說什麼

讓模型更大、更強，能學到更精細的特徵。

為什麼不對

這是讓過擬合更嚴重的做法。模型已經太複雜把訓練資料背下來了，增加深度和參數只會讓它背得更徹底。解決過擬合要的是「讓模型見識更多樣的資料」或「限制模型複雜度」，不是讓它更複雜。

誰會選錯

直覺是「準確率不好就把模型做大一點」的人。在過擬合的情況下，這個直覺是完全錯誤的方向。

C提高訓練速度，使模型更快完成學習

字面在說什麼

調快訓練速度（如加大 batch size 或提高學習率），讓訓練更快完成。

為什麼不對

訓練速度跟過擬合完全無關。過擬合是「資料多樣性不足 + 模型記憶了太多細節」的問題，加快速度不改變這兩個根本原因。甚至，訓練速度加快可能讓模型在更少的迭代中就「背完」訓練資料。

誰會選錯

把「提升效率」當成解決一切問題的萬能藥的人。過擬合問題和訓練速度是不同維度。

D僅保留模型表現較好的訓練資料

字面在說什麼

把模型預測較準的資料留下來，把預測不準的資料刪掉。

為什麼不對

這反而讓過擬合更嚴重。把模型已經學好的資料留下、把難學的刪掉，相當於讓訓練資料更「簡單」更「單一」，模型只學會它本來就擅長的部分，泛化能力更差。正確方向是增加多樣性，不是減少它。

誰會選錯

認為「去掉壞資料讓模型更乾淨」的人。這個邏輯在「去除雜訊」時有道理，但題目說的是「提升對新資料的適應能力」，刪好留壞讓多樣性更低，完全反方向。

06　變形

同個考點下次怎麼變形

變形 1

欠擬合（Underfitting）跟過擬合（Overfitting）怎麼用準確率數字區分？

直覺

兩個都是模型有問題，怎麼看哪個是哪個？

答案

過擬合：訓練高測試低（訓練 98%、測試 72%，落差大）。欠擬合：訓練和測試都低（訓練 65%、測試 63%，兩個都不好）。過擬合要增加資料多樣性或限制複雜度；欠擬合要增加模型複雜度或增加訓練量。

變形 2

Dropout 是什麼？為什麼能防止過擬合？

直覺

聽過 Dropout 但不知道它怎麼防止過擬合。

答案

Dropout 在每次訓練時隨機關閉部分神經元（如 20% 的神經元不傳遞訊號）。這讓模型不能「靠特定神經元的組合來記憶答案」，強迫每個神經元都要能獨立發揮作用，學到更通用的特徵。效果類似資料增強，但從模型架構面解決，而不是從資料面。

變形 3

資料增強（Data Augmentation）和遷移學習（Transfer Learning）都能解決訓練資料少的問題，差別是什麼？

直覺

兩個都是解決「資料不夠」的方法？

答案

資料增強是從現有資料製造更多變體，沒有增加新資訊，只是增加多樣性。遷移學習是借用在大量其他資料上預訓練好的模型，把已學到的特徵知識遷移過來，再用少量目標資料微調。兩者互補，許多 AI 專案同時使用。

變形 4

「早停（Early Stopping）」如何防止過擬合？

直覺

訓練更多輪不是應該讓模型更強嗎？

答案

訓練初期，模型從學習真實規律開始。但訓練到一定程度後，訓練準確率繼續提升，驗證準確率開始下降，這就是過擬合開始的時間點。早停是監控驗證集，一旦驗證準確率連續幾輪不再進步就停止訓練，保留最佳狀態的模型，避免訓練過頭。

變形 5

訓練資料有 10 萬張，但全是晴天白天拍的，這個問題叫什麼？怎麼解？

直覺

資料夠多應該沒問題了吧？

答案

這叫資料偏差（Data Bias）或分布偏移（Distribution Shift）。資料量多但多樣性不足，模型學不到陰天、夜晚的情況。解法：補充多樣情況的資料（主動採集）+ 資料增強（模擬不同光線條件）+ 在部署前用接近目標場景的資料做驗證。資料多≠資料夠用。

07　延伸

想再往下看，這 5 個

過擬合（Overfitting）模型在訓練資料上表現極佳但在新資料上表現差的現象，根本原因是模型記憶了訓練資料的細節而非學到通用規律，是機器學習最常見的問題之一
資料增強（Data Augmentation）對現有訓練資料進行隨機變換（旋轉、翻轉、色彩調整、裁剪）來增加資料多樣性的技術，在影像分類中是標準的防止過擬合方法
正規化（Regularization）限制模型複雜度的技術，包括 L1/L2 懲罰項和 Dropout，通過防止模型參數過大來避免過度擬合訓練資料
偏差-方差權衡（Bias-Variance Tradeoff）機器學習的核心矛盾：模型太簡單有高偏差（欠擬合），模型太複雜有高方差（過擬合），需要找到適當的模型複雜度和訓練策略
遷移學習（Transfer Learning）利用在大量資料上預訓練的模型（如 ImageNet 預訓練的 ResNet），遷移到特定任務的少量資料上微調，可大幅降低訓練資料需求和訓練成本