你有沒有看過一個欄位是 0 到 1,另一個欄位卻動不動就上千?
你可以把特徵縮放想成幫不同尺度的數字穿上同一套尺規,讓模型不要因為數值大小不同就偏心。
它重要,是因為很多演算法會看數值距離或梯度大小,原始尺度差太多時,訓練就容易歪掉。
你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。
容易混淆
特徵縮放 vs 正規化 正規化常指把數值拉到固定範圍。 特徵縮放是更大的概念,包含正規化與標準化等方法。
特徵縮放 vs 資料清理 資料清理是修錯、補缺漏。 特徵縮放是調整尺度,讓模型看得更公平。
記住這句就好
數值尺度不一樣,模型就可能看不一樣重。
實際案例
房價預測 面積、屋齡、樓層一起丟給模型前,先把尺度調整好,梯度下降通常會更穩。
推薦系統 把點擊次數、停留時間、評分值放在同一尺度,距離型模型會更容易比較。
算法與應用
常見方法有 Min-Max Scaling 和 Standardization。 對距離敏感的模型、梯度下降類模型和神經網路,特徵縮放常是很實用的前處理。
情境判斷
Q1: 如果兩個欄位數值差很多,直接丟進模型一定沒問題嗎?
不一定,很多模型會被大數值欄位主導,縮放後通常更穩。
Q2: 做完特徵縮放後,訓練集和測試集可以各自算各自的參數嗎?
不行,通常要用訓練集的參數套到測試集,不然容易產生資料洩漏。
常見問題
特徵縮放一定會提升準確率嗎?
不一定,但對很多距離型或梯度型方法來說,通常會讓訓練更穩。
樹模型也需要特徵縮放嗎?
通常沒那麼依賴,因為樹主要看切分,不太吃距離尺度。
縮放後資料會失去意義嗎?
不會,意義還在,只是數字表達方式變了。
標準化和正規化可以混用嗎?
可以,但要先看模型需求和資料分布,不是每次都要全部做。