過擬合 是什麼?

Overfitting — 過擬合 的完整解釋

過擬合指模型過度記憶訓練資料的細節與雜訊,導致在未見過的新資料上預測表現大幅下滑

容易混淆

過擬合 vs 欠擬合

過擬合是學太專精,只會訓練集;欠擬合是學太少,連訓練集都學不好,兩者都導致模型泛化能力差,無法處理新資料。

最關鍵的區別:一個是記太熟,一個是學太少。

過擬合 vs 欠擬合

過擬合是學太細,欠擬合是學太少,兩邊都會讓泛化變差

最關鍵的區別:一個記太多,一個學太少。

記住這句就好

訓練資料背太熟,遇到新資料就失準

實際案例

案例 1:模型在訓練集接近滿分,到了測試集卻掉到很低

這種情況下,過擬合 會幫你把原本手工或靠直覺的步驟變得更穩。

案例 2:小資料配大模型,最後只學到雜訊沒有學到規律

另一個常見場景也能看出 過擬合 的價值,因為它處理的是同一種核心問題。

算法與應用

核心意思就是:訓練資料背太熟,遇到新資料就失準。

常見解法包含正則化、Dropout、早停、交叉驗證和增加資料

看訓練分數和驗證分數的落差,最容易先抓到問題

情境判斷

Q1(直覺題): 模型在訓練集接近滿分,到了測試集卻掉到很低 這種情況,會先想到 過擬合 嗎?

→ 會,因為它正好在處理這件事的核心問題,只是還要看資料乾不乾淨、流程穩不穩。

Q2(判斷題): 訓練分數很好、測試分數很差,一定是過擬合嗎?

→ 多半是,但也要看資料切分、標註品質和任務難度,有時是資料分布不同

過擬合 在 iPAS 考試中的重點

根據歷年統計,過擬合 相關題目 平均佔 AI 技術類考題 8%, 屬於高頻考範圍。

常見出題方向:類神經網路架構(40%)、模型訓練與評估(35%)、防止過擬合的策略(25%)。

相關術語

常見問題

過擬合和欠擬合有什麼不同?

過擬合是指模型在訓練資料上表現很好,但在測試資料上表現很差;欠擬合是指模型在訓練資料和測試資料上都表現很差。 過擬合通常是因為模型過於複雜,學習了訓練資料中的雜訊;欠擬合通常是因為模型過於簡單,無法捕捉資料中的重要特徵。

什麼時候應該使用過擬合?

一般來說,我們應該避免過擬合。 但在某些特殊情況下,例如在資料量非常有限的情況下,或者在競賽中只關心特定測試集的表現時,可以適當允許模型過擬合。 但是,需要謹慎評估這種做法的風險,並採取相應的措施來控制過擬合的程度。

初學者學習過擬合最常見的誤解是什麼?

初學者最常見的誤解是認為訓練集準確率越高越好。 他們往往會過度追求在訓練集上的完美表現,而忽略了模型的泛化能力。 實際上,一個好的模型應該在訓練集和測試集上都表現良好,而不是只在訓練集上表現出色。

資料來源

← 回到 過擬合 快查頁

測驗你對 過擬合 的理解

透過模擬考系統檢驗學習成果

開始測驗