正規化(Normalization)是什麼?

正規化是一種資料前處理技術,將資料縮放到一個單位範數,例如L1或L2範數,使每個樣本的向量長度為1。|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

正規化(Normalization)是什麼? 機器學習資料處理

你有沒有遇過,有些資料數值特別大,讓模型看起來被它們牽著走? 你可以把它想成先把每個樣本縮到差不多的大小,讓模型比較的是方向或比例,而不是原始大小。 正規化的重點是把樣本向量拉到固定範數,避免尺度太大造成偏差。 這也讓它很適合先拿到可用答案,再慢慢把精度往上推。

容易混淆

正規化 vs 標準化 正規化:把每個樣本縮到固定範數 標準化:把特徵拉成平均 0、標準差 1 最關鍵的區別:先看它是在比什麼,再看它怎麼做。

正規化 vs 特徵縮放 正規化:通常處理樣本向量 特徵縮放:通常處理欄位數值範圍 最關鍵的區別:先看它是在比什麼,再看它怎麼做。

記住這句就好

把每個樣本縮到差不多長。

實際案例

文本向量 把長短不同的文件向量正規化,方便比較相似度。

影像特徵 在某些嵌入模型裡,正規化後距離比較有意義。

算法與應用

L1 和 L2 正規化最常見,前者偏稀疏,後者更平滑。 它常和餘弦相似度、向量檢索、以及度量學習搭配。 如果你的模型很怕向量長度影響結果,正規化通常很有用。

情境判斷

Q1(直覺題): 兩篇文件長度差很多,但你只想比較語意方向,該做什麼?

正規化,讓向量長度先統一。

Q2(判斷題): 如果你的特徵本來就有絕對大小意義,還能隨便正規化嗎?

要看情況,因為縮掉大小可能也把有用訊號一起拿掉。

常見問題

正規化和標準化一樣嗎?

不一樣,目標和處理對象都不同。

它一定能提升模型嗎?

不一定,要看任務是否真的需要控制向量長度。

L1 和 L2 怎麼選?

看你要不要稀疏表示,以及對離群值敏感不敏感。

範例考題

資料科學團隊在模型訓練前,需對數值特徵進行正規化(Normalization)或標準化(Standardization)。為確保模型評估結果具真實性並避免資料洩漏(Data Leakage),下列何者為最適當的作法?

  • A. 於資料分割前,先對完整資料集計算統計量並進行標準化處理
  • B. 先分割訓練資料(Training Data)和測試資料(Test Data),並各自獨立計算統計量後進行標準化
  • C. 先分割訓練資料(Training Data)和測試資料(Test Data),僅以訓練資料計算統計量,再套用至測試資料 ✓ 正確答案
  • D. 僅對訓練資料(Training Data)進行標準化處理,測試資料(Test Data)保持原始數值

解析:

為避免資料洩漏,應先分割資料,再僅使用訓練資料計算標準化的統計量(如均值、標準差),然後將相同的統計量套用到測試資料上。這樣測試資料的評估才能真實反映模型的泛化能力。