FE（特徵工程）是什麼？完整定義與解說

你有沒有遇過，資料明明一大堆，模型卻還是學不太好？

你可以把特徵工程想成幫原始資料做整理和加工，把模型比較好懂的資訊做出來，讓它更容易看出規律。

它重要，是因為資料本身不會自己變成好特徵，很多時候模型準不準，先看你餵進去的是不是好特徵。

容易混淆

特徵工程 vs 特徵擷取 特徵工程偏向人為設計和轉換，像把生日變成年齡。特徵擷取偏向從原始資料自動抽出表示，像把圖片轉成向量特徵。

特徵工程 vs 模型訓練 特徵工程是在準備輸入。模型訓練是在學怎麼用這些輸入做預測，兩者前後順序不同。

記住這句就好

特徵做得好，模型才有材料可學。

實際案例

信用評分 把收入、負債比、繳款紀錄整理成更有判斷力的欄位，模型才比較能分出風險。

電商推薦 把最近點擊、瀏覽次數、品類偏好整理成特徵，推薦結果通常會比只看原始交易表更準。

算法與應用

常見做法包含數值轉換、類別編碼、時間特徵、交互特徵和缺值處理。在傳統機器學習裡，它常直接影響模型上限，在深度學習裡，仍會影響輸入品質與訓練穩定度。

iPAS 考題

Q：特徵工程的主要目的為何？ → 讓原始資料變成更有資訊量、更容易被模型學習的輸入，進而提升預測效果。

Q：為什麼特徵工程常被視為重要前處理？ → 因為很多模型不是資料越多就越準，而是特徵是否能表達問題本質更關鍵。

情境判斷

Q1： 把類別欄位轉成數字，這算特徵工程嗎？

算，因為你在改變資料表達方式，讓模型能更好地使用它。

Q2： 如果深度學習已經很強，特徵工程就完全不重要嗎？

不一定，深度學習能少做一些手工設計，但資料品質差、欄位混亂時，特徵工程還是很有價值。

常見問題

特徵工程一定要很會寫程式嗎？

不一定，懂資料和業務脈絡常比會不會套工具更重要。

特徵工程和資料清理是一樣的嗎？

不一樣，資料清理是修錯資料，特徵工程是把資料變得更能幫模型判斷。

特徵工程會不會過度依賴經驗？

會有這個風險，所以通常要搭配驗證集和交叉驗證檢查效果。

自動化特徵工程有沒有用？

有，但它適合先擴充候選方向，最後仍常需要人工判斷哪些特徵真的合理。

範例考題

某零售業者建立顧客行為預測模型，資料集中包含「年消費金額」、「平均單筆交易金額」及「會員年資」等數值型特徵。資料分析顯示，部分金額特徵呈現高度偏態分布，少數樣本的數值顯著高於多數觀測值。為降低極端值對模型學習穩定性的影響，下列哪一種特徵工程方法最適合？

A. 對數轉換（Log Transformation） ✓ 正確答案
B. 區間化（Binning）
C. One-hot 編碼（One-hot Encoding）
D. 隨機重抽樣（Random Resampling）

解析：

對數轉換能有效壓縮高度偏態分布的資料範圍，使極端值的影響降低，讓資料分布更接近常態。這是處理右偏分布數值特徵最常用的特徵工程方法。

特徵工程（Feature Engineering）是什麼？

容易混淆

記住這句就好

實際案例

算法與應用

iPAS 考題

情境判斷

常見問題

範例考題

立即測驗

容易混淆

記住這句就好

實際案例

算法與應用

iPAS 考題

情境判斷

常見問題

相關術語

範例考題

延伸學習

立即測驗

資料來源與參考依據