正則化 是什麼?
Regularization — 正則化 的完整解釋
正則化是一種在機器學習中用於防止模型過度擬合的關鍵技術,它透過在損失函數中引入懲罰項,有效限制模型參數的複雜度,從而提升模型的泛化能力。
容易混淆
正則化 vs 過擬合 過擬合是問題。 正則化是解法。 最關鍵的區別:一個是症狀,一個是治療。
正則化 vs 資料擴增術 資料擴增術是把訓練資料變多、變豐富。 正則化是限制模型不要太複雜。 最關鍵的區別:一個增加資料,一個限制模型。
正則化 vs 提前終止 提前終止是訓練到一半發現驗證表現變差就停下來。 正則化是更廣義的抑制複雜度方法。 最關鍵的區別:一個是停止訓練策略,一個是模型約束手段。
記住這句就好
模型太會背,就要想辦法讓它別背太熟。
實際案例
小資料分類 你只有幾千筆資料,要訓練一個分類器,若不加正則化,很容易把訓練集記死。 加上正則化後,模型通常會更穩。
影像辨識 在深度網路裡,常會搭配 L1、L2、隨機丟棄或提前終止一起使用。 這些方法都在幫模型保留泛化能力。
算法與應用
正則化常透過損失函數加懲罰項,讓模型參數不要長得太大或太複雜。 L1 會鼓勵稀疏,L2 會讓參數更平滑,兩者一起用就是 Elastic Net 的概念。 實務上,正則化常和資料擴增、提前終止、Dropout 一起搭配。
情境判斷
Q1(直覺題): 你發現訓練分數很高、驗證分數很低,先想到什麼?
→ 先想到正則化或其他抑制過擬合的方法,因為模型可能學太死。
Q2(判斷題): 只要加了正則化,模型一定會更準嗎?
→ 不一定,正則化主要是讓模型更會泛化,太強反而可能讓模型學不夠。
相關術語
常見問題
L1 和 L2 有什麼不同?
L1 比較容易把一些參數壓到 0,L2 比較像把參數整體變平滑。
Dropout 算正則化嗎?
算,它也是用來降低過擬合的常見手段。
正則化一定適合所有模型嗎?
不一定,要看資料量、模型複雜度和任務目標。