特徵縮放 是什麼?

Feature Scaling — 特徵縮放 的完整解釋

特徵縮放是一種資料前處理技術,用於將不同範圍的特徵值縮放到一個統一的範圍內,避免某些特徵主導模型訓練。

容易混淆

特徵縮放 vs 正規化 正規化常指把數值拉到固定範圍。 特徵縮放是更大的概念,包含正規化與標準化等方法。

特徵縮放 vs 資料清理 資料清理是修錯、補缺漏。 特徵縮放是調整尺度,讓模型看得更公平。

記住這句就好

數值尺度不一樣,模型就可能看不一樣重。

實際案例

房價預測 面積、屋齡、樓層一起丟給模型前,先把尺度調整好,梯度下降通常會更穩。

推薦系統 把點擊次數、停留時間、評分值放在同一尺度,距離型模型會更容易比較。

算法與應用

常見方法有 Min-Max Scaling 和 Standardization。 對距離敏感的模型、梯度下降類模型和神經網路,特徵縮放常是很實用的前處理。

情境判斷

Q1:如果兩個欄位數值差很多,直接丟進模型一定沒問題嗎? → 不一定,很多模型會被大數值欄位主導,縮放後通常更穩。

Q2:做完特徵縮放後,訓練集和測試集可以各自算各自的參數嗎? → 不行,通常要用訓練集的參數套到測試集,不然容易產生資料洩漏。

相關術語

常見問題

特徵縮放一定會提升準確率嗎?

不一定,但對很多距離型或梯度型方法來說,通常會讓訓練更穩。

樹模型也需要特徵縮放嗎?

通常沒那麼依賴,因為樹主要看切分,不太吃距離尺度。

縮放後資料會失去意義嗎?

不會,意義還在,只是數字表達方式變了。

標準化和正規化可以混用嗎?

可以,但要先看模型需求和資料分布,不是每次都要全部做。