正規化（Normalization）是什麼？AI 術語完整說明

不一樣，目標和處理對象都不同。

機器學習資料處理

你有沒有遇過，有些資料數值特別大，讓模型看起來被它們牽著走？ 你可以把它想成先把每個樣本縮到差不多的大小，讓模型比較的是方向或比例，而不是原始大小。正規化的重點是把樣本向量拉到固定範數，避免尺度太大造成偏差。這也讓它很適合先拿到可用答案，再慢慢把精度往上推。

容易混淆

正規化 vs 標準化 正規化：把每個樣本縮到固定範數標準化：把特徵拉成平均 0、標準差 1 最關鍵的區別：先看它是在比什麼，再看它怎麼做。

正規化 vs 特徵縮放 正規化：通常處理樣本向量特徵縮放：通常處理欄位數值範圍最關鍵的區別：先看它是在比什麼，再看它怎麼做。

把每個樣本縮到差不多長。

文本向量 把長短不同的文件向量正規化，方便比較相似度。

影像特徵 在某些嵌入模型裡，正規化後距離比較有意義。

L1 和 L2 正規化最常見，前者偏稀疏，後者更平滑。它常和餘弦相似度、向量檢索、以及度量學習搭配。如果你的模型很怕向量長度影響結果，正規化通常很有用。

Q1（直覺題）： 兩篇文件長度差很多，但你只想比較語意方向，該做什麼？

正規化，讓向量長度先統一。

Q2（判斷題）： 如果你的特徵本來就有絕對大小意義，還能隨便正規化嗎？

要看情況，因為縮掉大小可能也把有用訊號一起拿掉。

正規化和標準化一樣嗎？

不一樣，目標和處理對象都不同。

它一定能提升模型嗎？

不一定，要看任務是否真的需要控制向量長度。

L1 和 L2 怎麼選？

看你要不要稀疏表示，以及對離群值敏感不敏感。

資料科學團隊在模型訓練前，需對數值特徵進行正規化（Normalization）或標準化（Standardization）。為確保模型評估結果具真實性並避免資料洩漏（Data Leakage），下列何者為最適當的作法？

解析：

為避免資料洩漏，應先分割資料，再僅使用訓練資料計算標準化的統計量（如均值、標準差），然後將相同的統計量套用到測試資料上。這樣測試資料的評估才能真實反映模型的泛化能力。