特徵縮放(Feature Scaling)是什麼?

特徵縮放是一種資料前處理技術,用於將不同範圍的特徵值縮放到一個統一的範圍內,避免某些特徵主導模型訓練。|本頁含完整原理、應用場景、iPAS 考試重點與 4 個常見問答。

特徵縮放(Feature Scaling)是什麼? 機器學習資料處理

你有沒有看過一個欄位是 0 到 1,另一個欄位卻動不動就上千?

你可以把特徵縮放想成幫不同尺度的數字穿上同一套尺規,讓模型不要因為數值大小不同就偏心。

它重要,是因為很多演算法會看數值距離或梯度大小,原始尺度差太多時,訓練就容易歪掉。

你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。

容易混淆

特徵縮放 vs 正規化 正規化常指把數值拉到固定範圍。 特徵縮放是更大的概念,包含正規化與標準化等方法。

特徵縮放 vs 資料清理 資料清理是修錯、補缺漏。 特徵縮放是調整尺度,讓模型看得更公平。

記住這句就好

數值尺度不一樣,模型就可能看不一樣重。

實際案例

房價預測 面積、屋齡、樓層一起丟給模型前,先把尺度調整好,梯度下降通常會更穩。

推薦系統 把點擊次數、停留時間、評分值放在同一尺度,距離型模型會更容易比較。

算法與應用

常見方法有 Min-Max Scaling 和 Standardization。 對距離敏感的模型、梯度下降類模型和神經網路,特徵縮放常是很實用的前處理。

情境判斷

Q1: 如果兩個欄位數值差很多,直接丟進模型一定沒問題嗎?

不一定,很多模型會被大數值欄位主導,縮放後通常更穩。

Q2: 做完特徵縮放後,訓練集和測試集可以各自算各自的參數嗎?

不行,通常要用訓練集的參數套到測試集,不然容易產生資料洩漏。

常見問題

特徵縮放一定會提升準確率嗎?

不一定,但對很多距離型或梯度型方法來說,通常會讓訓練更穩。

樹模型也需要特徵縮放嗎?

通常沒那麼依賴,因為樹主要看切分,不太吃距離尺度。

縮放後資料會失去意義嗎?

不會,意義還在,只是數字表達方式變了。

標準化和正規化可以混用嗎?

可以,但要先看模型需求和資料分布,不是每次都要全部做。