解析:
訓練準確率高但測試準確率低是典型的過擬合(Overfitting)現象。資料增強(Data Augmentation)透過對訓練影像進行旋轉、翻轉等隨機變化,可以增加訓練資料的多樣性,有效降低過擬合。
過擬合指模型過度記憶訓練資料的細節與雜訊,導致在未見過的新資料上預測表現大幅下滑|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。
你有沒有遇過考卷一模一樣會寫,題目一變就卡住的情況?
你可以把 過擬合 想成 訓練集背太熟,遇到新題就失準。
模型要能面對沒看過的新資料,訓練資料背太熟,遇到新資料就失準 這件事就特別重要。
你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。
過擬合 vs 欠擬合
過擬合是學太專精,只會訓練集;欠擬合是學太少,連訓練集都學不好,兩者都導致模型泛化能力差,無法處理新資料。
最關鍵的區別:一個是記太熟,一個是學太少。
過擬合 vs 欠擬合
過擬合是學太細,欠擬合是學太少,兩邊都會讓泛化變差
最關鍵的區別:一個記太多,一個學太少。
訓練資料背太熟,遇到新資料就失準
案例 1:模型在訓練集接近滿分,到了測試集卻掉到很低
這種情況下,過擬合 會幫你把原本手工或靠直覺的步驟變得更穩。
案例 2:小資料配大模型,最後只學到雜訊沒有學到規律
另一個常見場景也能看出 過擬合 的價值,因為它處理的是同一種核心問題。
核心意思就是:訓練資料背太熟,遇到新資料就失準。
常見解法包含正則化、Dropout、早停、交叉驗證和增加資料
看訓練分數和驗證分數的落差,最容易先抓到問題
Q1(直覺題): 模型在訓練集接近滿分,到了測試集卻掉到很低 這種情況,會先想到 過擬合 嗎?
→ 會,因為它正好在處理這件事的核心問題,只是還要看資料乾不乾淨、流程穩不穩。
Q2(判斷題): 訓練分數很好、測試分數很差,一定是過擬合嗎?
→ 多半是,但也要看資料切分、標註品質和任務難度,有時是資料分布不同
出題方向: 過擬合 常考概念、應用場景和與相近術語的差別。
Q:如果題目問你「哪個敘述最符合 過擬合?」要先看什麼?
→ 先看它是在解決「訓練資料背太熟,遇到新資料就失準」這件事,還是只是描述相似的工具或流程。
過擬合是指模型在訓練資料上表現很好,但在測試資料上表現很差;欠擬合是指模型在訓練資料和測試資料上都表現很差。 過擬合通常是因為模型過於複雜,學習了訓練資料中的雜訊;欠擬合通常是因為模型過於簡單,無法捕捉資料中的重要特徵。
一般來說,我們應該避免過擬合。 但在某些特殊情況下,例如在資料量非常有限的情況下,或者在競賽中只關心特定測試集的表現時,可以適當允許模型過擬合。 但是,需要謹慎評估這種做法的風險,並採取相應的措施來控制過擬合的程度。
初學者最常見的誤解是認為訓練集準確率越高越好。 他們往往會過度追求在訓練集上的完美表現,而忽略了模型的泛化能力。 實際上,一個好的模型應該在訓練集和測試集上都表現良好,而不是只在訓練集上表現出色。
某團隊訓練影像分類模型,發現模型在訓練資料上的準確率達 98%,但在測試資料上僅有 72%。若團隊希望提升模型對新資料的適應能力,並增加訓練資料的多樣性,下列何者最適合?
解析:
訓練準確率高但測試準確率低是典型的過擬合(Overfitting)現象。資料增強(Data Augmentation)透過對訓練影像進行旋轉、翻轉等隨機變化,可以增加訓練資料的多樣性,有效降低過擬合。
想測試你對 過擬合 的掌握程度? 開始模擬考