特徵縮放 是什麼?
Feature Scaling — 特徵縮放 的完整解釋
特徵縮放是一種資料前處理技術,用於將不同範圍的特徵值縮放到一個統一的範圍內,避免某些特徵主導模型訓練。
容易混淆
特徵縮放 vs 正規化 正規化常指把數值拉到固定範圍。 特徵縮放是更大的概念,包含正規化與標準化等方法。
特徵縮放 vs 資料清理 資料清理是修錯、補缺漏。 特徵縮放是調整尺度,讓模型看得更公平。
記住這句就好
數值尺度不一樣,模型就可能看不一樣重。
實際案例
房價預測 面積、屋齡、樓層一起丟給模型前,先把尺度調整好,梯度下降通常會更穩。
推薦系統 把點擊次數、停留時間、評分值放在同一尺度,距離型模型會更容易比較。
算法與應用
常見方法有 Min-Max Scaling 和 Standardization。 對距離敏感的模型、梯度下降類模型和神經網路,特徵縮放常是很實用的前處理。
情境判斷
Q1:如果兩個欄位數值差很多,直接丟進模型一定沒問題嗎? → 不一定,很多模型會被大數值欄位主導,縮放後通常更穩。
Q2:做完特徵縮放後,訓練集和測試集可以各自算各自的參數嗎? → 不行,通常要用訓練集的參數套到測試集,不然容易產生資料洩漏。
相關術語
常見問題
特徵縮放一定會提升準確率嗎?
不一定,但對很多距離型或梯度型方法來說,通常會讓訓練更穩。
樹模型也需要特徵縮放嗎?
通常沒那麼依賴,因為樹主要看切分,不太吃距離尺度。
縮放後資料會失去意義嗎?
不會,意義還在,只是數字表達方式變了。
標準化和正規化可以混用嗎?
可以,但要先看模型需求和資料分布,不是每次都要全部做。