過擬合問題怎麼用資料增強解決?
某團隊訓練影像分類模型,發現模型在訓練資料上的準確率達 98%,但在測試資料上僅有 72%。若團隊希望提升模型對新資料的適應能力,並增加訓練資料的多樣性,下列何者最適合?
一個團隊訓練影像分類模型,發現模型在訓練資料上準確率 98%,但在測試資料上只有 72%,兩者落差很大。
團隊希望改善這個狀況,目標是提升模型對新資料的適應能力,並增加訓練資料的多樣性。
問你:為了達到「提升對新資料適應能力、增加訓練資料多樣性」的目標,下列哪個做法最合適?
一句話總結
訓練準確率高、測試準確率低是過擬合(Overfitting),解法是讓模型看到更多樣的資料。對訓練影像做旋轉、翻轉等隨機變化(Data Augmentation)能直接增加資料多樣性,讓模型學到更通用的特徵。
先感受問題:模型「死背」訓練資料,真正上場卻不行
「台灣智農科技」的工程師林宗翰在做番茄病害辨識系統。訓練集有 2,000 張得病番茄照片,都是在溫室裡、固定光源、正面角度拍的。
模型訓練完後:在這 2,000 張上準確率 98%,在田間實拍的新照片上卻只有 72%。
問題出在哪?模型把訓練圖片的細節都「背起來了」,包含背景、光線角度等跟病害無關的特徵。遇到斜角度、不同光線、不同品種的番茄,就認不出來。
解法:讓模型在訓練時就見過各種角度和光線的番茄,但重拍 2,000 張太費工,更聰明的方法是把現有照片旋轉、翻轉、調亮暗,變成更多樣的訓練資料。
過擬合的成因:模型太「死心眼」
林宗翰的模型出現過擬合,有幾個根本原因:
- 訓練資料太少:只有 2,000 張,而且都是相似情況拍的,缺乏多樣性
- 模型複雜度過高:深度神經網路學習能力太強,把雜訊和不相關特徵都學進去了
- 資料分布單一:全是正面固定光源,模型沒見過側面、逆光、局部遮擋的情況
- 訓練太久:訓練輪次過多,模型從「學規律」變成「背答案」
- 沒有正規化:沒有用 Dropout 或 L2 正規化來防止模型過度複雜化
過擬合不是單一原因造成的,但最快的解法通常是從「資料多樣性」下手。
資料增強:用舊照片「變」出新視角
林宗翰採用資料增強(Data Augmentation):把現有的 2,000 張照片,用程式自動生成各種變體。
旋轉(Rotation):把每張番茄照片旋轉 90°、180°、270°,這樣同一張照片變成 4 張,而且模型學到「不管番茄怎麼轉,都是同樣的病害」。
翻轉(Flip):水平和垂直翻轉,同樣一張照片再多一倍。
亮度調整:模擬不同光線條件,讓模型認識強光和暗光下的病害特徵。
裁剪和縮放:讓模型學習不管病斑大小和位置,都能認出來。
2,000 張原始照片,經過增強後變成 20,000 張多樣化訓練資料,而且沒有額外的拍照成本。模型見過各種變體後,再看到田間的新照片,就不容易認不出來了。
這就是選項 B 的正確理由:對訓練影像進行旋轉、翻轉等隨機變化,是資料增強的核心操作,直接增加訓練資料的多樣性,改善過擬合。
技術版:過擬合的診斷與解法全景
過擬合(Overfitting)是機器學習最常見的問題,診斷方式是看「訓練準確率明顯高於驗證/測試準確率」的落差(本題是 26%)。
常見的解決方案(初級需理解概念):
- 資料增強(Data Augmentation):用現有資料做變換增加多樣性(本題答案)
- 正規化(Regularization):L1/L2 正規化限制模型參數大小,Dropout 隨機關閉部分神經元
- 早停(Early Stopping):監控驗證集損失,一旦開始變差就停止訓練
- 減少模型複雜度:減少層數或參數量,讓模型沒有能力記憶細節
- 收集更多真實資料:根本解法,但成本高
資料增強的適用範圍:對影像分類效果最顯著(旋轉、翻轉、色彩變換)。對文字也有增強方法(同義詞替換、回翻譯),但效果相對有限。
欠擬合(Underfitting)vs 過擬合:欠擬合是訓練和測試準確率都低(模型太簡單,學不到特徵);過擬合是訓練高測試低(模型太複雜,把噪音都學進去了)。解法方向相反:欠擬合要增加複雜度,過擬合要降低複雜度或增加資料多樣性。
為什麼出題者考這題:過擬合是 AI 模型部署失敗最常見的原因之一,規劃師必須能識別這個問題並知道有哪些解法,在與工程師溝通時有基本概念。
為什麼其他選項是錯的
A增加模型的深度與參數量,使模型學習更細節
讓模型更大、更強,能學到更精細的特徵。
這是讓過擬合更嚴重的做法。模型已經太複雜把訓練資料背下來了,增加深度和參數只會讓它背得更徹底。解決過擬合要的是「讓模型見識更多樣的資料」或「限制模型複雜度」,不是讓它更複雜。
直覺是「準確率不好就把模型做大一點」的人。在過擬合的情況下,這個直覺是完全錯誤的方向。
C提高訓練速度,使模型更快完成學習
調快訓練速度(如加大 batch size 或提高學習率),讓訓練更快完成。
訓練速度跟過擬合完全無關。過擬合是「資料多樣性不足 + 模型記憶了太多細節」的問題,加快速度不改變這兩個根本原因。甚至,訓練速度加快可能讓模型在更少的迭代中就「背完」訓練資料。
把「提升效率」當成解決一切問題的萬能藥的人。過擬合問題和訓練速度是不同維度。
D僅保留模型表現較好的訓練資料
把模型預測較準的資料留下來,把預測不準的資料刪掉。
這反而讓過擬合更嚴重。把模型已經學好的資料留下、把難學的刪掉,相當於讓訓練資料更「簡單」更「單一」,模型只學會它本來就擅長的部分,泛化能力更差。正確方向是增加多樣性,不是減少它。
認為「去掉壞資料讓模型更乾淨」的人。這個邏輯在「去除雜訊」時有道理,但題目說的是「提升對新資料的適應能力」,刪好留壞讓多樣性更低,完全反方向。
同個考點下次怎麼變形
欠擬合(Underfitting)跟過擬合(Overfitting)怎麼用準確率數字區分?
兩個都是模型有問題,怎麼看哪個是哪個?
過擬合:訓練高測試低(訓練 98%、測試 72%,落差大)。欠擬合:訓練和測試都低(訓練 65%、測試 63%,兩個都不好)。過擬合要增加資料多樣性或限制複雜度;欠擬合要增加模型複雜度或增加訓練量。
Dropout 是什麼?為什麼能防止過擬合?
聽過 Dropout 但不知道它怎麼防止過擬合。
Dropout 在每次訓練時隨機關閉部分神經元(如 20% 的神經元不傳遞訊號)。這讓模型不能「靠特定神經元的組合來記憶答案」,強迫每個神經元都要能獨立發揮作用,學到更通用的特徵。效果類似資料增強,但從模型架構面解決,而不是從資料面。
資料增強(Data Augmentation)和遷移學習(Transfer Learning)都能解決訓練資料少的問題,差別是什麼?
兩個都是解決「資料不夠」的方法?
資料增強是從現有資料製造更多變體,沒有增加新資訊,只是增加多樣性。遷移學習是借用在大量其他資料上預訓練好的模型,把已學到的特徵知識遷移過來,再用少量目標資料微調。兩者互補,許多 AI 專案同時使用。
「早停(Early Stopping)」如何防止過擬合?
訓練更多輪不是應該讓模型更強嗎?
訓練初期,模型從學習真實規律開始。但訓練到一定程度後,訓練準確率繼續提升,驗證準確率開始下降,這就是過擬合開始的時間點。早停是監控驗證集,一旦驗證準確率連續幾輪不再進步就停止訓練,保留最佳狀態的模型,避免訓練過頭。
訓練資料有 10 萬張,但全是晴天白天拍的,這個問題叫什麼?怎麼解?
資料夠多應該沒問題了吧?
這叫資料偏差(Data Bias)或分布偏移(Distribution Shift)。資料量多但多樣性不足,模型學不到陰天、夜晚的情況。解法:補充多樣情況的資料(主動採集)+ 資料增強(模擬不同光線條件)+ 在部署前用接近目標場景的資料做驗證。資料多≠資料夠用。
想再往下看,這 5 個
- 過擬合(Overfitting)模型在訓練資料上表現極佳但在新資料上表現差的現象,根本原因是模型記憶了訓練資料的細節而非學到通用規律,是機器學習最常見的問題之一
- 資料增強(Data Augmentation)對現有訓練資料進行隨機變換(旋轉、翻轉、色彩調整、裁剪)來增加資料多樣性的技術,在影像分類中是標準的防止過擬合方法
- 正規化(Regularization)限制模型複雜度的技術,包括 L1/L2 懲罰項和 Dropout,通過防止模型參數過大來避免過度擬合訓練資料
- 偏差-方差權衡(Bias-Variance Tradeoff)機器學習的核心矛盾:模型太簡單有高偏差(欠擬合),模型太複雜有高方差(過擬合),需要找到適當的模型複雜度和訓練策略
- 遷移學習(Transfer Learning)利用在大量資料上預訓練的模型(如 ImageNet 預訓練的 ResNet),遷移到特定任務的少量資料上微調,可大幅降低訓練資料需求和訓練成本