iPAS AI 應用規劃師中級　科目三　機器學習技術與應用

哪個策略不屬於防止過擬合的方法？

原題 26

在防止監督式學習模型過擬合（Overfitting）時，下列哪一種策略不屬於降低模型複雜度或限制學習能力的作法？

白話

在防止監督式學習模型過擬合時，有些策略是透過「降低模型複雜度」或「限制模型的學習能力」來達成目的，有些則不是。

問你：下列四個選項，哪一種策略「不屬於」降低複雜度或限制學習能力的作法？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

不屬於降低模型複雜度或限制學習能力的策略是：擴增輸入特徵變數以提升模型表達能力——增加特徵是在「擴充」模型的輸入空間，讓模型有更多東西可以學，與「限制學習能力」的方向完全相反。

02　情境

先感受問題：模型「死背」了訓練資料

你是台積電 AI 良率預測組的工程師。你訓練了一個預測晶片良率的神經網路，在 5000 筆訓練資料上準確率達到 99%，但拿到新批次的 1000 筆測試資料時，準確率只有 78%。

這就是過擬合：模型把訓練資料的每一個細節都「背起來」了，包括噪音和偶然性，而不是學到真正的規律。遇到新資料，這些「背下來的細節」變成了干擾。

要解決過擬合，方向只有兩種：（1）讓模型「學得不那麼徹底」——限制學習能力；（2）給模型更多不同的資料——讓過擬合沒有空間發生。增加輸入特徵不屬於這兩種方向中的任何一種，反而是讓模型有更多「東西可以死背」。

03　對照

為什麼模型會過擬合，怎麼限制它

模型容量過大：網路層數太深、神經元太多，參數比訓練資料還多，輕易就能死背所有訓練樣本。解法：減少層數/神經元，或用正則化懲罰過大的參數。
訓練太久：即使模型大小合理，訓練太多個 Epoch 會讓模型逐漸從「學規律」轉變為「記細節」。解法：早期停止（Early Stopping），在驗證集誤差開始上升時停止訓練。
特徵冗餘或噪音：特徵太多（尤其是噪音特徵），模型會把噪音也學進去。解法：特徵選擇，或 L1 正則化讓不重要特徵的係數歸零。
訓練資料不夠多樣：訓練集太小或樣本同質性太高，模型沒有足夠的情境可以泛化。解法：資料擴增（Data Augmentation）增加多樣性。
神經元相互依賴：深度網路中，神經元可能形成共同適應（Co-Adaptation），少數神經元「包辦」所有工作，其他變成冗餘。解法：Dropout 強制每次訓練只用部分神經元，破除共同適應。

04　解法

為什麼擴增特徵反而助長過擬合

台積電的工程師嘗試了四種策略：

加 L2 正則化：對所有參數加懲罰項，讓模型不敢讓某個參數值太大，被迫把學習「分散」到更多特徵，泛化能力提升。
加 Dropout（rate=0.3）：每次訓練隨機丟棄 30% 的神經元，強迫模型在不同的「殘缺版網路」上學習，每個神經元都必須獨立有用，泛化能力提升。
加入 Early Stopping：監控驗證集損失，一旦連續 5 個 Epoch 驗證損失不再下降，就停止訓練，避免模型繼續死背訓練集。
增加 20 個輸入特徵：加入更多製程參數。結果訓練準確率從 99% 升到 99.5%，測試準確率從 78% 降到 72%——過擬合更嚴重了。

增加特徵讓模型有更多維度可以「死背」訓練樣本。如果新加的特徵跟目標變數有真實關聯，確實有幫助；但如果是噪音特徵，就是直接在餵過擬合燃料。這個方向是「提升表達能力」，與「限制學習能力」完全相反。

這就是為什麼選項 D 不屬於降低複雜度或限制學習能力的作法：擴增輸入特徵變數以提升模型表達能力——方向相反，是「擴張」而非「限制」。

技術版：防止過擬合的方法論體系

防止過擬合是監督式學習中最重要的工程問題之一，解法可分為三大類。

第一類：限制模型容量（Capacity Constraint）

正則化（L1/L2）：在損失函數加上參數大小的懲罰項，抑制模型學習過於複雜的決策邊界。
減少模型深度/寬度：直接縮小模型規模，降低記憶訓練資料的能力。
Dropout：每次訓練隨機丟棄部分神經元，等效於訓練多個「小模型」的集成。

第二類：提前停止學習

Early Stopping：在驗證損失最低點停止，避免繼續學習訓練集噪音。

第三類：增加有效訓練資料

資料擴增（Data Augmentation）：對現有資料做翻轉、裁剪、加噪等變換，增加多樣性。
收集更多真實資料：根本解決方案，但成本高。

增加特徵的雙面性：增加真實有效的特徵（與目標有因果或相關關係）能提升模型性能；增加無關或噪音特徵則直接加重過擬合。特徵選擇（Feature Selection）和正則化恰好是用來「移除/壓制」無效特徵的工具，方向與「擴增特徵」相反。

為什麼出題者要考這題：防止過擬合是中級 ML 的核心概念，考的是能否區分「限制學習能力」和「擴充輸入空間」這兩個方向上的策略差異。

05　陷阱

為什麼其他選項確實屬於防止過擬合（都不是答案）

A採用 L1 或 L2 正則化

字面在說什麼

在損失函數中加入參數大小的懲罰項，讓模型不能讓任何參數值過大。

為什麼不對（為何它確實能防過擬合）

正則化直接「限制了模型的學習自由度」——模型在最小化訓練誤差的同時，還被迫讓參數保持小值，無法對訓練資料的每個細節「過度擬合」。L1 讓不重要的參數歸零，L2 讓所有參數均勻縮小，兩者都屬於限制學習能力的作法。

誰會選錯

不熟悉正則化是「對參數加限制」的人，或誤以為「加入正則化是讓模型更複雜」的人。正則化是減法而不是加法，是在懲罰而不是獎勵複雜性。

B在訓練過程中使用 Dropout 技術

字面在說什麼

每次訓練時隨機讓一部分神經元「不工作」，強迫模型不能依賴特定神經元的組合。

為什麼不對（為何它確實能防過擬合）

Dropout 的本質是在每次訓練中「隨機縮小模型」——把 30% 的神經元丟掉，等於在用一個更小的網路學習。這直接限制了網路的有效學習容量，屬於限制學習能力的作法。同時，Dropout 可以理解為在訓練大量不同架構的小模型，最終預測相當於集成，泛化能力自然提升。

誰會選錯

看到「訓練過程中加入 Dropout」就以為是在「幫助」訓練（讓模型更好），而不理解 Dropout 是在「故意讓訓練不那麼充分」來換取泛化能力的人。

C採取早期停止（Early Stopping）機制

字面在說什麼

監控驗證集誤差，在驗證誤差開始上升時提前結束訓練，避免繼續死背訓練集。

為什麼不對（為何它確實能防過擬合）

早期停止是在「時間維度上限制學習」——模型在訓練集上還沒完全過擬合時就停下來，等效於限制了模型可以做的梯度更新次數。這是最直接的「限制學習能力」作法，把模型能學習的「時間」卡死在驗證損失最低的時間點。

誰會選錯

誤以為「停止訓練不算是技術手段」的人，或不知道 Early Stopping 的正式分類就是一種正則化技術（Implicit Regularization）的人。

06　變形

同個考點下次怎麼變形

變形 1

L1 和 L2 正則化的差別是什麼？什麼時候選哪個？

直覺

兩者都在懲罰大的參數值，但懲罰的方式不同。

答案

L1（Lasso）懲罰參數的絕對值之和，會讓部分參數精確歸零（稀疏解），相當於自動特徵選擇，適合特徵很多且大量無效的場景。L2（Ridge）懲罰參數的平方和，讓所有參數均勻縮小但不為零，適合多個特徵都有一定貢獻的場景。如果希望模型自動「刪除」不重要特徵，用 L1；如果希望所有特徵都保留但權重受控，用 L2；若兩種需求都有，用 Elastic Net（L1 + L2 混合）。

變形 2

Dropout 在預測（推論）時還要用嗎？

直覺

Dropout 在訓練時隨機丟棄神經元，那預測時也要隨機丟棄嗎？

答案

不要。預測時關閉 Dropout（所有神經元都參與），但把每個神經元的輸出乘以「存活率（1-Dropout 率）」作為縮放補償。例如 Dropout rate=0.3，預測時每個神經元輸出乘以 0.7，確保預測時的期望值與訓練時一致。實作上，大多數深度學習框架（PyTorch、TensorFlow）在設置 model.eval() 時會自動關閉 Dropout。

變形 3

資料擴增（Data Augmentation）算是防止過擬合的方法嗎？

直覺

增加訓練資料數量能防止過擬合，資料擴增不就是在增加資料？

答案

是，資料擴增確實能有效防止過擬合，但它的機制與本題的「降低複雜度或限制學習能力」不同——它是透過「增加訓練資料的多樣性」讓過擬合沒有空間發生。本題問的是「限制學習能力」這個方向，資料擴增是「增加有效資料」這個方向。兩種方向都能防過擬合，但屬於不同的策略類別。

變形 4

Early Stopping 怎麼設定「patience」參數？

直覺

Patience 設太小，訓練過早停止，可能還沒學夠；設太大，又會過擬合。

答案

Patience 代表「驗證損失連續多少個 Epoch 沒有改善，才停止」。通常設 5-20，具體取決於任務：（1）學習率調整有延遲效應，建議 patience ≥ 10；（2）損失曲線波動大（例如小 batch size），建議 patience 更大；（3）若使用學習率衰減（ReduceLROnPlateau），patience 要小於 LR 衰減的 patience，確保停止在最後一次 LR 衰減後。

變形 5

如果模型欠擬合，應該用哪些策略？

直覺

過擬合要限制學習能力，欠擬合應該是相反方向——提升學習能力。

答案

欠擬合的解法確實是「提升學習能力」：（1）增加模型層數/寬度；（2）訓練更多 Epoch；（3）降低正則化強度（減小 L2 lambda 或 Dropout rate）；（4）加入更多有意義的特徵；（5）選擇更複雜的模型架構。題目選項 D（擴增輸入特徵以提升表達能力）恰好是欠擬合情境下的常見策略，但用在「防止過擬合」的場景下，方向是錯的。

07　延伸

想再往下看，這 5 個

過擬合（Overfitting）本題核心，模型在訓練集上表現極好但在新資料上失效，是機器學習最常見的問題。
正則化（Regularization）防止過擬合的主要技術，在損失函數加入懲罰項限制模型複雜度。
Dropout（隨機丟棄）深度學習專用的正則化技術，訓練時隨機關閉部分神經元，強迫模型學習更強健的特徵表示。
提前終止（Early Stopping）在驗證損失開始上升前停止訓練，是防止過擬合最直觀的方法之一。
L2 正則化（Ridge）最常用的正則化形式，對所有參數施加均等的縮小壓力，不讓任何單一參數過度主導預測。