正規化 是什麼?
Normalization — 正規化 的完整解釋
正規化是一種資料前處理技術,將資料縮放到一個單位範數,例如L1或L2範數,使每個樣本的向量長度為1。
容易混淆
正規化 vs 標準化 正規化:把每個樣本縮到固定範數 標準化:把特徵拉成平均 0、標準差 1 最關鍵的區別:先看它是在比什麼,再看它怎麼做。
正規化 vs 特徵縮放 正規化:通常處理樣本向量 特徵縮放:通常處理欄位數值範圍 最關鍵的區別:先看它是在比什麼,再看它怎麼做。
記住這句就好
把每個樣本縮到差不多長。
實際案例
文本向量 把長短不同的文件向量正規化,方便比較相似度。
影像特徵 在某些嵌入模型裡,正規化後距離比較有意義。
算法與應用
L1 和 L2 正規化最常見,前者偏稀疏,後者更平滑。 它常和餘弦相似度、向量檢索、以及度量學習搭配。 如果你的模型很怕向量長度影響結果,正規化通常很有用。
情境判斷
Q1(直覺題):兩篇文件長度差很多,但你只想比較語意方向,該做什麼? → 正規化,讓向量長度先統一。
Q2(判斷題):如果你的特徵本來就有絕對大小意義,還能隨便正規化嗎? → 要看情況,因為縮掉大小可能也把有用訊號一起拿掉。
相關術語
常見問題
正規化和標準化一樣嗎?
不一樣,目標和處理對象都不同。
它一定能提升模型嗎?
不一定,要看任務是否真的需要控制向量長度。
L1 和 L2 怎麼選?
看你要不要稀疏表示,以及對離群值敏感不敏感。