iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論

過擬合問題怎麼用資料增強解決?

原題 20

某團隊訓練影像分類模型,發現模型在訓練資料上的準確率達 98%,但在測試資料上僅有 72%。若團隊希望提升模型對新資料的適應能力,並增加訓練資料的多樣性,下列何者最適合?

白話

一個團隊訓練影像分類模型,發現模型在訓練資料上準確率 98%,但在測試資料上只有 72%,兩者落差很大。

團隊希望改善這個狀況,目標是提升模型對新資料的適應能力,並增加訓練資料的多樣性。

問你:為了達到「提升對新資料適應能力、增加訓練資料多樣性」的目標,下列哪個做法最合適?

點選你的答案。

01 總結

一句話總結

訓練準確率高、測試準確率低是過擬合(Overfitting),解法是讓模型看到更多樣的資料。對訓練影像做旋轉、翻轉等隨機變化(Data Augmentation)能直接增加資料多樣性,讓模型學到更通用的特徵。

02 情境

先感受問題:模型「死背」訓練資料,真正上場卻不行

「台灣智農科技」的工程師林宗翰在做番茄病害辨識系統。訓練集有 2,000 張得病番茄照片,都是在溫室裡、固定光源、正面角度拍的。

模型訓練完後:在這 2,000 張上準確率 98%,在田間實拍的新照片上卻只有 72%。

問題出在哪?模型把訓練圖片的細節都「背起來了」,包含背景、光線角度等跟病害無關的特徵。遇到斜角度、不同光線、不同品種的番茄,就認不出來。

解法:讓模型在訓練時就見過各種角度和光線的番茄,但重拍 2,000 張太費工,更聰明的方法是把現有照片旋轉、翻轉、調亮暗,變成更多樣的訓練資料。

03 對照

過擬合的成因:模型太「死心眼」

林宗翰的模型出現過擬合,有幾個根本原因:

  1. 訓練資料太少:只有 2,000 張,而且都是相似情況拍的,缺乏多樣性
  2. 模型複雜度過高:深度神經網路學習能力太強,把雜訊和不相關特徵都學進去了
  3. 資料分布單一:全是正面固定光源,模型沒見過側面、逆光、局部遮擋的情況
  4. 訓練太久:訓練輪次過多,模型從「學規律」變成「背答案」
  5. 沒有正規化:沒有用 Dropout 或 L2 正規化來防止模型過度複雜化

過擬合不是單一原因造成的,但最快的解法通常是從「資料多樣性」下手。

04 解法

資料增強:用舊照片「變」出新視角

林宗翰採用資料增強(Data Augmentation):把現有的 2,000 張照片,用程式自動生成各種變體。

旋轉(Rotation):把每張番茄照片旋轉 90°、180°、270°,這樣同一張照片變成 4 張,而且模型學到「不管番茄怎麼轉,都是同樣的病害」。

翻轉(Flip):水平和垂直翻轉,同樣一張照片再多一倍。

亮度調整:模擬不同光線條件,讓模型認識強光和暗光下的病害特徵。

裁剪和縮放:讓模型學習不管病斑大小和位置,都能認出來。

2,000 張原始照片,經過增強後變成 20,000 張多樣化訓練資料,而且沒有額外的拍照成本。模型見過各種變體後,再看到田間的新照片,就不容易認不出來了。

這就是選項 B 的正確理由:對訓練影像進行旋轉、翻轉等隨機變化,是資料增強的核心操作,直接增加訓練資料的多樣性,改善過擬合

技術版:過擬合的診斷與解法全景

過擬合(Overfitting)是機器學習最常見的問題,診斷方式是看「訓練準確率明顯高於驗證/測試準確率」的落差(本題是 26%)。

常見的解決方案(初級需理解概念):

  • 資料增強(Data Augmentation):用現有資料做變換增加多樣性(本題答案)
  • 正規化(Regularization):L1/L2 正規化限制模型參數大小,Dropout 隨機關閉部分神經元
  • 早停(Early Stopping):監控驗證集損失,一旦開始變差就停止訓練
  • 減少模型複雜度:減少層數或參數量,讓模型沒有能力記憶細節
  • 收集更多真實資料:根本解法,但成本高

資料增強的適用範圍:對影像分類效果最顯著(旋轉、翻轉、色彩變換)。對文字也有增強方法(同義詞替換、回翻譯),但效果相對有限。

欠擬合(Underfitting)vs 過擬合:欠擬合是訓練和測試準確率都低(模型太簡單,學不到特徵);過擬合是訓練高測試低(模型太複雜,把噪音都學進去了)。解法方向相反:欠擬合要增加複雜度,過擬合要降低複雜度或增加資料多樣性。

為什麼出題者考這題:過擬合是 AI 模型部署失敗最常見的原因之一,規劃師必須能識別這個問題並知道有哪些解法,在與工程師溝通時有基本概念。

05 陷阱

為什麼其他選項是錯的

A增加模型的深度與參數量,使模型學習更細節

字面在說什麼

讓模型更大、更強,能學到更精細的特徵。

為什麼不對

這是讓過擬合更嚴重的做法。模型已經太複雜把訓練資料背下來了,增加深度和參數只會讓它背得更徹底。解決過擬合要的是「讓模型見識更多樣的資料」或「限制模型複雜度」,不是讓它更複雜。

誰會選錯

直覺是「準確率不好就把模型做大一點」的人。在過擬合的情況下,這個直覺是完全錯誤的方向。

C提高訓練速度,使模型更快完成學習

字面在說什麼

調快訓練速度(如加大 batch size 或提高學習率),讓訓練更快完成。

為什麼不對

訓練速度跟過擬合完全無關。過擬合是「資料多樣性不足 + 模型記憶了太多細節」的問題,加快速度不改變這兩個根本原因。甚至,訓練速度加快可能讓模型在更少的迭代中就「背完」訓練資料。

誰會選錯

把「提升效率」當成解決一切問題的萬能藥的人。過擬合問題和訓練速度是不同維度。

D僅保留模型表現較好的訓練資料

字面在說什麼

把模型預測較準的資料留下來,把預測不準的資料刪掉。

為什麼不對

這反而讓過擬合更嚴重。把模型已經學好的資料留下、把難學的刪掉,相當於讓訓練資料更「簡單」更「單一」,模型只學會它本來就擅長的部分,泛化能力更差。正確方向是增加多樣性,不是減少它。

誰會選錯

認為「去掉壞資料讓模型更乾淨」的人。這個邏輯在「去除雜訊」時有道理,但題目說的是「提升對新資料的適應能力」,刪好留壞讓多樣性更低,完全反方向。

06 變形

同個考點下次怎麼變形

變形 1

欠擬合(Underfitting)跟過擬合(Overfitting)怎麼用準確率數字區分?

直覺

兩個都是模型有問題,怎麼看哪個是哪個?

答案

過擬合:訓練高測試低(訓練 98%、測試 72%,落差大)。欠擬合:訓練和測試都低(訓練 65%、測試 63%,兩個都不好)。過擬合要增加資料多樣性或限制複雜度;欠擬合要增加模型複雜度或增加訓練量。

變形 2

Dropout 是什麼?為什麼能防止過擬合?

直覺

聽過 Dropout 但不知道它怎麼防止過擬合。

答案

Dropout 在每次訓練時隨機關閉部分神經元(如 20% 的神經元不傳遞訊號)。這讓模型不能「靠特定神經元的組合來記憶答案」,強迫每個神經元都要能獨立發揮作用,學到更通用的特徵。效果類似資料增強,但從模型架構面解決,而不是從資料面。

變形 3

資料增強(Data Augmentation)和遷移學習(Transfer Learning)都能解決訓練資料少的問題,差別是什麼?

直覺

兩個都是解決「資料不夠」的方法?

答案

資料增強是從現有資料製造更多變體,沒有增加新資訊,只是增加多樣性。遷移學習是借用在大量其他資料上預訓練好的模型,把已學到的特徵知識遷移過來,再用少量目標資料微調。兩者互補,許多 AI 專案同時使用。

變形 4

「早停(Early Stopping)」如何防止過擬合?

直覺

訓練更多輪不是應該讓模型更強嗎?

答案

訓練初期,模型從學習真實規律開始。但訓練到一定程度後,訓練準確率繼續提升,驗證準確率開始下降,這就是過擬合開始的時間點。早停是監控驗證集,一旦驗證準確率連續幾輪不再進步就停止訓練,保留最佳狀態的模型,避免訓練過頭。

變形 5

訓練資料有 10 萬張,但全是晴天白天拍的,這個問題叫什麼?怎麼解?

直覺

資料夠多應該沒問題了吧?

答案

這叫資料偏差(Data Bias)分布偏移(Distribution Shift)。資料量多但多樣性不足,模型學不到陰天、夜晚的情況。解法:補充多樣情況的資料(主動採集)+ 資料增強(模擬不同光線條件)+ 在部署前用接近目標場景的資料做驗證。資料多≠資料夠用。

07 延伸

想再往下看,這 5 個

  • 過擬合(Overfitting)模型在訓練資料上表現極佳但在新資料上表現差的現象,根本原因是模型記憶了訓練資料的細節而非學到通用規律,是機器學習最常見的問題之一
  • 資料增強(Data Augmentation)對現有訓練資料進行隨機變換(旋轉、翻轉、色彩調整、裁剪)來增加資料多樣性的技術,在影像分類中是標準的防止過擬合方法
  • 正規化(Regularization)限制模型複雜度的技術,包括 L1/L2 懲罰項和 Dropout,通過防止模型參數過大來避免過度擬合訓練資料
  • 偏差-方差權衡(Bias-Variance Tradeoff)機器學習的核心矛盾:模型太簡單有高偏差(欠擬合),模型太複雜有高方差(過擬合),需要找到適當的模型複雜度和訓練策略
  • 遷移學習(Transfer Learning)利用在大量資料上預訓練的模型(如 ImageNet 預訓練的 ResNet),遷移到特定任務的少量資料上微調,可大幅降低訓練資料需求和訓練成本
出處

iPAS 經濟部產業人才能力鑑定 ・ 115 年第一次 iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論 第 20 題

查看官方原文 PDF