iPAS AI 應用規劃師 中級 科目三 機器學習技術與應用

L1 正則化怎麼產生稀疏模型?

原題 02

在建立迴歸或分類模型時,若希望避免模型過度擬合(Overfitting),可透過加入正則化項以限制模型的複雜度。其中,L1 正則化(Lasso)的主要效果為何?

白話

建模時為了避免過擬合,可以在損失函數裡加一個「懲罰項」來限制模型複雜度,這個做法叫正則化。L1 正則化(也叫 Lasso)是其中一種。

問你:L1 正則化的主要效果是什麼?

點選你的答案。

01 總結

一句話總結

L1 正則化(Lasso)的主要效果是讓部分參數的權重直接變成零,產生稀疏模型,相當於自動做特徵選擇,把不重要的特徵踢出去。

02 情境

先感受問題:特徵太多怎麼辦?

假設鴻海的供應鏈分析師要預測某零件的良率,整理了 500 個特徵:溫度、濕度、機台編號、操作員年資、班別、電壓波動……

直接拿 500 個特徵訓練模型,問題來了:

  • 大部分特徵跟良率根本沒關係(例如機台編號只是流水號)。
  • 模型把不相關的噪音也學進去,訓練集表現超好,測試集就爛掉了:過擬合。
  • 500 個參數的模型很難解讀,工程師不知道哪些因素真的重要。

你希望模型自動篩掉不重要的特徵,只保留真正有預測力的那幾十個。

03 對照

不加正則化的模型有什麼問題

  1. 過擬合:模型把訓練資料的噪音也背起來,對新資料完全失準。
  2. 參數大爆炸:500 個特徵的係數可能有些變得極大,讓模型對微小輸入變化過度敏感。
  3. 無法解釋:所有特徵都有非零係數,看不出哪些真的重要。
  4. 推論成本高:部署時要計算所有 500 個特徵,工程上不划算。
  5. 手動特徵選擇耗時:人工篩選 500 個特徵需要大量領域知識和時間。
04 解法

L1 正則化怎麼解

L1 正則化在損失函數裡加了一個懲罰項:所有參數的絕對值之和。訓練時,優化器在讓損失最小化的同時,還要壓低這個絕對值之和。

關鍵效果:L1 懲罰項的幾何特性會讓優化器傾向把某些參數直接推到零,而不只是縮小。這樣一來:

  • 500 個特徵裡,跟良率不相關的那些,係數會直接歸零。
  • 最終模型可能只有 30 個非零係數,其他 470 個特徵被自動排除。
  • 這個「有很多零的模型」就叫做稀疏模型(Sparse Model)。

鴻海的工程師只需要看那 30 個非零特徵,就能理解哪些製程參數真正影響良率。

這就是選項 C 講的:產生稀疏模型(Sparse Model),使部分參數權重收斂為零

技術版:L1 與 L2 正則化的差異與應用場景

正則化(Regularization)屬於機器學習的模型複雜度控制範疇,是防止過擬合最基礎的手段之一,廣泛用於線性迴歸、邏輯迴歸、SVM 等模型。

L1 vs L2 正則化的核心差異:

  • L1 正則化(Lasso):懲罰項是所有係數的絕對值之和。幾何上,L1 的等值線是菱形,最優解傾向落在頂點(某些係數恰好為零)。效果:特徵選擇,產生稀疏模型。
  • L2 正則化(Ridge):懲罰項是所有係數的平方和。幾何上,L2 的等值線是圓形,最優解是所有係數都縮小但不到零。效果:係數收縮,不做特徵選擇。
  • Elastic Net:同時加入 L1 與 L2 懲罰,可兼顧特徵選擇與係數穩定性。

實務應用場景:特徵數量遠大於樣本數時(高維稀疏資料,如基因組分析、文本分類)優先考慮 L1;特徵間存在高度相關性時 L2 更穩定;兩者都不確定時用 Elastic Net。

為什麼出題者要考這題:L1/L2 正則化是機器學習核心知識點,理解「係數收斂為零」與「係數縮小」的差異,直接反映應試者是否真正理解正則化的數學本質,而非只知道「加懲罰項可以防止過擬合」。

05 陷阱

為什麼其他選項是錯的

A增加模型參數的數量,以提升表現靈活度

字面在說什麼

增加參數讓模型更複雜、更有彈性,能捕捉更多資料的細微規律。

為什麼不對

正則化的目的是限制模型複雜度,不是增加。L1 正則化讓部分參數歸零,實際上是在減少有效參數數量,正好相反。

誰會選錯

對「Lasso」這個名字有印象,但把「靈活」和「正則化」搞反的人。記住:正則化是在「懲罰複雜度」,方向永遠是讓模型更簡單。

B強化梯度穩定性,避免參數更新過度震盪

字面在說什麼

讓梯度下降時的更新幅度更穩定,不會一下子跳很大。

為什麼不對

梯度穩定性是梯度裁剪(Gradient Clipping)、批次正規化(Batch Normalization)、學習率調整等技術的職責,不是 L1 正則化的效果。L1 正則化是在損失函數裡加懲罰項,不直接處理梯度的震盪問題。

誰會選錯

把「防止過擬合」和「訓練穩定性」混為一談的人。前者關心的是模型在測試集的表現,後者關心的是訓練過程的數值穩定。

D提高學習率(Learning Rate),加速模型收斂速度

字面在說什麼

調高學習率讓每次更新幅度更大,模型更快收斂。

為什麼不對

正則化是損失函數層面的改動,學習率是優化器層面的超參數,兩者完全不同。L1 正則化不改變學習率,也不加速收斂,它只改變損失函數的形狀,讓參數被推向零。

誰會選錯

對「加速模型訓練」有概念但混淆了正則化與優化器設定的人。記住:正則化影響的是最終模型的複雜度,不是訓練速度。

06 變形

同個考點下次怎麼變形

變形 1

L2 正則化(Ridge)和 L1 有什麼不同?

直覺

L2 也能防止過擬合,但係數不會直接歸零。

答案

L2 是懲罰係數的平方和,讓係數均勻縮小但不到零。適合特徵都有一定相關性的情境。L1 適合高維稀疏資料(需要特徵選擇),L2 適合所有特徵都可能有貢獻的情境。

變形 2

正則化係數 λ 太大會怎樣?

直覺

λ 控制懲罰力度,太大就懲罰太重。

答案

λ 過大,所有係數都被壓到接近零,模型會欠擬合(Underfitting):在訓練集和測試集都表現差。λ 需要透過交叉驗證來選擇最佳值。

變形 3

Elastic Net 是什麼?

直覺

有時候 L1 或 L2 各自的缺點都想避免。

答案

Elastic Net 同時加入 L1 和 L2 懲罰項,用兩個超參數控制各自比重。既能做特徵選擇(L1 效果),也能在相關特徵間均勻分配權重(L2 效果),適合特徵數量多且有高度相關性的資料。

變形 4

L1 正則化為什麼能讓係數恰好為零,L2 卻不行?

直覺

都是加懲罰,但幾何形狀不同。

答案

L1 的等值線(約束區域)是菱形,頂點在坐標軸上(某個係數為零),損失函數的等高線與菱形相交時,最容易碰到頂點,所以自然產生稀疏解。L2 的等值線是圓形,相交點不會恰好在坐標軸,所以係數只縮小不歸零。

變形 5

深度學習常用 Dropout 而不是 L1 正則化,為什麼?

直覺

深度神經網路有數百萬個參數,直接加 L1 懲罰項計算量很大。

答案

Dropout 在每次訓練時隨機關閉一部分神經元,讓模型不能依賴特定路徑,間接防止過擬合,計算上更有效率。L1/L2 在深度學習中也用,但較少做特徵選擇用途,更多是做權重衰減(Weight Decay)。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 114 年第二梯次 iPAS AI 應用規劃師 中級 科目三 機器學習技術與應用 第 2 題

查看官方原文 PDF