iPAS AI 應用規劃師 中級 科目三 機器學習技術與應用

哪個策略不屬於防止過擬合的方法?

原題 26

在防止監督式學習模型過擬合(Overfitting)時,下列哪一種策略不屬於降低模型複雜度或限制學習能力的作法?

白話

在防止監督式學習模型過擬合時,有些策略是透過「降低模型複雜度」或「限制模型的學習能力」來達成目的,有些則不是。

問你:下列四個選項,哪一種策略「不屬於」降低複雜度或限制學習能力的作法?

點選你的答案。

01 總結

一句話總結

不屬於降低模型複雜度或限制學習能力的策略是:擴增輸入特徵變數以提升模型表達能力——增加特徵是在「擴充」模型的輸入空間,讓模型有更多東西可以學,與「限制學習能力」的方向完全相反。

02 情境

先感受問題:模型「死背」了訓練資料

你是台積電 AI 良率預測組的工程師。你訓練了一個預測晶片良率的神經網路,在 5000 筆訓練資料上準確率達到 99%,但拿到新批次的 1000 筆測試資料時,準確率只有 78%。

這就是過擬合:模型把訓練資料的每一個細節都「背起來」了,包括噪音和偶然性,而不是學到真正的規律。遇到新資料,這些「背下來的細節」變成了干擾。

要解決過擬合,方向只有兩種:(1)讓模型「學得不那麼徹底」——限制學習能力;(2)給模型更多不同的資料——讓過擬合沒有空間發生。增加輸入特徵不屬於這兩種方向中的任何一種,反而是讓模型有更多「東西可以死背」。

03 對照

為什麼模型會過擬合,怎麼限制它

  1. 模型容量過大:網路層數太深、神經元太多,參數比訓練資料還多,輕易就能死背所有訓練樣本。解法:減少層數/神經元,或用正則化懲罰過大的參數。
  2. 訓練太久:即使模型大小合理,訓練太多個 Epoch 會讓模型逐漸從「學規律」轉變為「記細節」。解法:早期停止(Early Stopping),在驗證集誤差開始上升時停止訓練。
  3. 特徵冗餘或噪音:特徵太多(尤其是噪音特徵),模型會把噪音也學進去。解法:特徵選擇,或 L1 正則化讓不重要特徵的係數歸零。
  4. 訓練資料不夠多樣:訓練集太小或樣本同質性太高,模型沒有足夠的情境可以泛化。解法:資料擴增(Data Augmentation)增加多樣性。
  5. 神經元相互依賴:深度網路中,神經元可能形成共同適應(Co-Adaptation),少數神經元「包辦」所有工作,其他變成冗餘。解法:Dropout 強制每次訓練只用部分神經元,破除共同適應。
04 解法

為什麼擴增特徵反而助長過擬合

台積電的工程師嘗試了四種策略:

  • 加 L2 正則化:對所有參數加懲罰項,讓模型不敢讓某個參數值太大,被迫把學習「分散」到更多特徵,泛化能力提升。
  • 加 Dropout(rate=0.3):每次訓練隨機丟棄 30% 的神經元,強迫模型在不同的「殘缺版網路」上學習,每個神經元都必須獨立有用,泛化能力提升。
  • 加入 Early Stopping:監控驗證集損失,一旦連續 5 個 Epoch 驗證損失不再下降,就停止訓練,避免模型繼續死背訓練集。
  • 增加 20 個輸入特徵:加入更多製程參數。結果訓練準確率從 99% 升到 99.5%,測試準確率從 78% 降到 72%——過擬合更嚴重了。

增加特徵讓模型有更多維度可以「死背」訓練樣本。如果新加的特徵跟目標變數有真實關聯,確實有幫助;但如果是噪音特徵,就是直接在餵過擬合燃料。這個方向是「提升表達能力」,與「限制學習能力」完全相反。

這就是為什麼選項 D 不屬於降低複雜度或限制學習能力的作法:擴增輸入特徵變數以提升模型表達能力——方向相反,是「擴張」而非「限制」。

技術版:防止過擬合的方法論體系

防止過擬合是監督式學習中最重要的工程問題之一,解法可分為三大類。

第一類:限制模型容量(Capacity Constraint)

  • 正則化(L1/L2):在損失函數加上參數大小的懲罰項,抑制模型學習過於複雜的決策邊界。
  • 減少模型深度/寬度:直接縮小模型規模,降低記憶訓練資料的能力。
  • Dropout:每次訓練隨機丟棄部分神經元,等效於訓練多個「小模型」的集成。

第二類:提前停止學習

  • Early Stopping:在驗證損失最低點停止,避免繼續學習訓練集噪音。

第三類:增加有效訓練資料

  • 資料擴增(Data Augmentation):對現有資料做翻轉、裁剪、加噪等變換,增加多樣性。
  • 收集更多真實資料:根本解決方案,但成本高。

增加特徵的雙面性:增加真實有效的特徵(與目標有因果或相關關係)能提升模型性能;增加無關或噪音特徵則直接加重過擬合。特徵選擇(Feature Selection)和正則化恰好是用來「移除/壓制」無效特徵的工具,方向與「擴增特徵」相反。

為什麼出題者要考這題:防止過擬合是中級 ML 的核心概念,考的是能否區分「限制學習能力」和「擴充輸入空間」這兩個方向上的策略差異。

05 陷阱

為什麼其他選項確實屬於防止過擬合(都不是答案)

A採用 L1 或 L2 正則化

字面在說什麼

在損失函數中加入參數大小的懲罰項,讓模型不能讓任何參數值過大。

為什麼不對(為何它確實能防過擬合)

正則化直接「限制了模型的學習自由度」——模型在最小化訓練誤差的同時,還被迫讓參數保持小值,無法對訓練資料的每個細節「過度擬合」。L1 讓不重要的參數歸零,L2 讓所有參數均勻縮小,兩者都屬於限制學習能力的作法。

誰會選錯

不熟悉正則化是「對參數加限制」的人,或誤以為「加入正則化是讓模型更複雜」的人。正則化是減法而不是加法,是在懲罰而不是獎勵複雜性。

B在訓練過程中使用 Dropout 技術

字面在說什麼

每次訓練時隨機讓一部分神經元「不工作」,強迫模型不能依賴特定神經元的組合。

為什麼不對(為何它確實能防過擬合)

Dropout 的本質是在每次訓練中「隨機縮小模型」——把 30% 的神經元丟掉,等於在用一個更小的網路學習。這直接限制了網路的有效學習容量,屬於限制學習能力的作法。同時,Dropout 可以理解為在訓練大量不同架構的小模型,最終預測相當於集成,泛化能力自然提升。

誰會選錯

看到「訓練過程中加入 Dropout」就以為是在「幫助」訓練(讓模型更好),而不理解 Dropout 是在「故意讓訓練不那麼充分」來換取泛化能力的人。

C採取早期停止(Early Stopping)機制

字面在說什麼

監控驗證集誤差,在驗證誤差開始上升時提前結束訓練,避免繼續死背訓練集。

為什麼不對(為何它確實能防過擬合)

早期停止是在「時間維度上限制學習」——模型在訓練集上還沒完全過擬合時就停下來,等效於限制了模型可以做的梯度更新次數。這是最直接的「限制學習能力」作法,把模型能學習的「時間」卡死在驗證損失最低的時間點。

誰會選錯

誤以為「停止訓練不算是技術手段」的人,或不知道 Early Stopping 的正式分類就是一種正則化技術(Implicit Regularization)的人。

06 變形

同個考點下次怎麼變形

變形 1

L1 和 L2 正則化的差別是什麼?什麼時候選哪個?

直覺

兩者都在懲罰大的參數值,但懲罰的方式不同。

答案

L1(Lasso)懲罰參數的絕對值之和,會讓部分參數精確歸零(稀疏解),相當於自動特徵選擇,適合特徵很多且大量無效的場景。L2(Ridge)懲罰參數的平方和,讓所有參數均勻縮小但不為零,適合多個特徵都有一定貢獻的場景。如果希望模型自動「刪除」不重要特徵,用 L1;如果希望所有特徵都保留但權重受控,用 L2;若兩種需求都有,用 Elastic Net(L1 + L2 混合)。

變形 2

Dropout 在預測(推論)時還要用嗎?

直覺

Dropout 在訓練時隨機丟棄神經元,那預測時也要隨機丟棄嗎?

答案

不要。預測時關閉 Dropout(所有神經元都參與),但把每個神經元的輸出乘以「存活率(1-Dropout 率)」作為縮放補償。例如 Dropout rate=0.3,預測時每個神經元輸出乘以 0.7,確保預測時的期望值與訓練時一致。實作上,大多數深度學習框架(PyTorch、TensorFlow)在設置 model.eval() 時會自動關閉 Dropout。

變形 3

資料擴增(Data Augmentation)算是防止過擬合的方法嗎?

直覺

增加訓練資料數量能防止過擬合,資料擴增不就是在增加資料?

答案

是,資料擴增確實能有效防止過擬合,但它的機制與本題的「降低複雜度或限制學習能力」不同——它是透過「增加訓練資料的多樣性」讓過擬合沒有空間發生。本題問的是「限制學習能力」這個方向,資料擴增是「增加有效資料」這個方向。兩種方向都能防過擬合,但屬於不同的策略類別。

變形 4

Early Stopping 怎麼設定「patience」參數?

直覺

Patience 設太小,訓練過早停止,可能還沒學夠;設太大,又會過擬合。

答案

Patience 代表「驗證損失連續多少個 Epoch 沒有改善,才停止」。通常設 5-20,具體取決於任務:(1)學習率調整有延遲效應,建議 patience ≥ 10;(2)損失曲線波動大(例如小 batch size),建議 patience 更大;(3)若使用學習率衰減(ReduceLROnPlateau),patience 要小於 LR 衰減的 patience,確保停止在最後一次 LR 衰減後。

變形 5

如果模型欠擬合,應該用哪些策略?

直覺

過擬合要限制學習能力,欠擬合應該是相反方向——提升學習能力。

答案

欠擬合的解法確實是「提升學習能力」:(1)增加模型層數/寬度;(2)訓練更多 Epoch;(3)降低正則化強度(減小 L2 lambda 或 Dropout rate);(4)加入更多有意義的特徵;(5)選擇更複雜的模型架構。題目選項 D(擴增輸入特徵以提升表達能力)恰好是欠擬合情境下的常見策略,但用在「防止過擬合」的場景下,方向是錯的。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 114 年第二梯次 iPAS AI 應用規劃師 中級 科目三 機器學習技術與應用 第 26 題

查看官方原文 PDF