iPAS AI 應用規劃師中級　科目三　機器學習技術與應用

L1 正則化怎麼產生稀疏模型？

原題 02

在建立迴歸或分類模型時，若希望避免模型過度擬合（Overfitting），可透過加入正則化項以限制模型的複雜度。其中，L1 正則化（Lasso）的主要效果為何？

白話

建模時為了避免過擬合，可以在損失函數裡加一個「懲罰項」來限制模型複雜度，這個做法叫正則化。L1 正則化（也叫 Lasso）是其中一種。

問你：L1 正則化的主要效果是什麼？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

L1 正則化（Lasso）的主要效果是讓部分參數的權重直接變成零，產生稀疏模型，相當於自動做特徵選擇，把不重要的特徵踢出去。

02　情境

先感受問題：特徵太多怎麼辦？

假設鴻海的供應鏈分析師要預測某零件的良率，整理了 500 個特徵：溫度、濕度、機台編號、操作員年資、班別、電壓波動……

直接拿 500 個特徵訓練模型，問題來了：

大部分特徵跟良率根本沒關係（例如機台編號只是流水號）。
模型把不相關的噪音也學進去，訓練集表現超好，測試集就爛掉了：過擬合。
500 個參數的模型很難解讀，工程師不知道哪些因素真的重要。

你希望模型自動篩掉不重要的特徵，只保留真正有預測力的那幾十個。

03　對照

不加正則化的模型有什麼問題

過擬合：模型把訓練資料的噪音也背起來，對新資料完全失準。
參數大爆炸：500 個特徵的係數可能有些變得極大，讓模型對微小輸入變化過度敏感。
無法解釋：所有特徵都有非零係數，看不出哪些真的重要。
推論成本高：部署時要計算所有 500 個特徵，工程上不划算。
手動特徵選擇耗時：人工篩選 500 個特徵需要大量領域知識和時間。

04　解法

L1 正則化怎麼解

L1 正則化在損失函數裡加了一個懲罰項：所有參數的絕對值之和。訓練時，優化器在讓損失最小化的同時，還要壓低這個絕對值之和。

關鍵效果：L1 懲罰項的幾何特性會讓優化器傾向把某些參數直接推到零，而不只是縮小。這樣一來：

500 個特徵裡，跟良率不相關的那些，係數會直接歸零。
最終模型可能只有 30 個非零係數，其他 470 個特徵被自動排除。
這個「有很多零的模型」就叫做稀疏模型（Sparse Model）。

鴻海的工程師只需要看那 30 個非零特徵，就能理解哪些製程參數真正影響良率。

這就是選項 C 講的：產生稀疏模型（Sparse Model），使部分參數權重收斂為零。

技術版：L1 與 L2 正則化的差異與應用場景

正則化（Regularization）屬於機器學習的模型複雜度控制範疇，是防止過擬合最基礎的手段之一，廣泛用於線性迴歸、邏輯迴歸、SVM 等模型。

L1 vs L2 正則化的核心差異：

L1 正則化（Lasso）：懲罰項是所有係數的絕對值之和。幾何上，L1 的等值線是菱形，最優解傾向落在頂點（某些係數恰好為零）。效果：特徵選擇，產生稀疏模型。
L2 正則化（Ridge）：懲罰項是所有係數的平方和。幾何上，L2 的等值線是圓形，最優解是所有係數都縮小但不到零。效果：係數收縮，不做特徵選擇。
Elastic Net：同時加入 L1 與 L2 懲罰，可兼顧特徵選擇與係數穩定性。

實務應用場景：特徵數量遠大於樣本數時（高維稀疏資料，如基因組分析、文本分類）優先考慮 L1；特徵間存在高度相關性時 L2 更穩定；兩者都不確定時用 Elastic Net。

為什麼出題者要考這題：L1/L2 正則化是機器學習核心知識點，理解「係數收斂為零」與「係數縮小」的差異，直接反映應試者是否真正理解正則化的數學本質，而非只知道「加懲罰項可以防止過擬合」。

05　陷阱

為什麼其他選項是錯的

A增加模型參數的數量，以提升表現靈活度

字面在說什麼

增加參數讓模型更複雜、更有彈性，能捕捉更多資料的細微規律。

為什麼不對

正則化的目的是限制模型複雜度，不是增加。L1 正則化讓部分參數歸零，實際上是在減少有效參數數量，正好相反。

誰會選錯

對「Lasso」這個名字有印象，但把「靈活」和「正則化」搞反的人。記住：正則化是在「懲罰複雜度」，方向永遠是讓模型更簡單。

B強化梯度穩定性，避免參數更新過度震盪

字面在說什麼

讓梯度下降時的更新幅度更穩定，不會一下子跳很大。

為什麼不對

梯度穩定性是梯度裁剪（Gradient Clipping）、批次正規化（Batch Normalization）、學習率調整等技術的職責，不是 L1 正則化的效果。L1 正則化是在損失函數裡加懲罰項，不直接處理梯度的震盪問題。

誰會選錯

把「防止過擬合」和「訓練穩定性」混為一談的人。前者關心的是模型在測試集的表現，後者關心的是訓練過程的數值穩定。

D提高學習率（Learning Rate），加速模型收斂速度

字面在說什麼

調高學習率讓每次更新幅度更大，模型更快收斂。

為什麼不對

正則化是損失函數層面的改動，學習率是優化器層面的超參數，兩者完全不同。L1 正則化不改變學習率，也不加速收斂，它只改變損失函數的形狀，讓參數被推向零。

誰會選錯

對「加速模型訓練」有概念但混淆了正則化與優化器設定的人。記住：正則化影響的是最終模型的複雜度，不是訓練速度。

06　變形

同個考點下次怎麼變形

變形 1

L2 正則化（Ridge）和 L1 有什麼不同？

直覺

L2 也能防止過擬合，但係數不會直接歸零。

答案

L2 是懲罰係數的平方和，讓係數均勻縮小但不到零。適合特徵都有一定相關性的情境。L1 適合高維稀疏資料（需要特徵選擇），L2 適合所有特徵都可能有貢獻的情境。

變形 2

正則化係數 λ 太大會怎樣？

直覺

λ 控制懲罰力度，太大就懲罰太重。

答案

λ 過大，所有係數都被壓到接近零，模型會欠擬合（Underfitting）：在訓練集和測試集都表現差。λ 需要透過交叉驗證來選擇最佳值。

變形 3

Elastic Net 是什麼？

直覺

有時候 L1 或 L2 各自的缺點都想避免。

答案

Elastic Net 同時加入 L1 和 L2 懲罰項，用兩個超參數控制各自比重。既能做特徵選擇（L1 效果），也能在相關特徵間均勻分配權重（L2 效果），適合特徵數量多且有高度相關性的資料。

變形 4

L1 正則化為什麼能讓係數恰好為零，L2 卻不行？

直覺

都是加懲罰，但幾何形狀不同。

答案

L1 的等值線（約束區域）是菱形，頂點在坐標軸上（某個係數為零），損失函數的等高線與菱形相交時，最容易碰到頂點，所以自然產生稀疏解。L2 的等值線是圓形，相交點不會恰好在坐標軸，所以係數只縮小不歸零。

變形 5

深度學習常用 Dropout 而不是 L1 正則化，為什麼？

直覺

深度神經網路有數百萬個參數，直接加 L1 懲罰項計算量很大。

答案

Dropout 在每次訓練時隨機關閉一部分神經元，讓模型不能依賴特定路徑，間接防止過擬合，計算上更有效率。L1/L2 在深度學習中也用，但較少做特徵選擇用途，更多是做權重衰減（Weight Decay）。

07　延伸

想再往下看，這 5 個

L1 正則化（Lasso）本題核心，透過懲罰絕對值之和使部分參數歸零，實現稀疏模型與自動特徵選擇。
L2 正則化（Ridge）同為正則化方法，懲罰平方和使係數均勻縮小但不歸零，適合特徵間高度相關的情境。
正則化（Regularization）防止過擬合的通用策略，在損失函數中加入複雜度懲罰項。
過擬合（Overfitting）模型在訓練集表現極好但測試集差，正則化的主要對抗目標。
特徵選擇法（Feature Selection）L1 正則化的隱含效果，自動篩掉與目標變數無關的特徵。