特徵工程(Feature Engineering)是什麼?

特徵工程透過創建、轉換與選擇原始資料的代表性特徵,顯著提升機器學習模型的預測效果|本頁含完整原理、應用場景、iPAS 考試重點與 4 個常見問答。

特徵工程(Feature Engineering)是什麼? iPAS 高頻 特徵工程資料處理

你有沒有遇過,資料明明一大堆,模型卻還是學不太好?

你可以把特徵工程想成幫原始資料做整理和加工,把模型比較好懂的資訊做出來,讓它更容易看出規律。

它重要,是因為資料本身不會自己變成好特徵,很多時候模型準不準,先看你餵進去的是不是好特徵。

容易混淆

特徵工程 vs 特徵擷取 特徵工程偏向人為設計和轉換,像把生日變成年齡。 特徵擷取偏向從原始資料自動抽出表示,像把圖片轉成向量特徵。

特徵工程 vs 模型訓練 特徵工程是在準備輸入。 模型訓練是在學怎麼用這些輸入做預測,兩者前後順序不同。

記住這句就好

特徵做得好,模型才有材料可學。

實際案例

信用評分 把收入、負債比、繳款紀錄整理成更有判斷力的欄位,模型才比較能分出風險。

電商推薦 把最近點擊、瀏覽次數、品類偏好整理成特徵,推薦結果通常會比只看原始交易表更準。

算法與應用

常見做法包含數值轉換、類別編碼、時間特徵、交互特徵和缺值處理。 在傳統機器學習裡,它常直接影響模型上限,在深度學習裡,仍會影響輸入品質與訓練穩定度。

iPAS 考題

Q:特徵工程的主要目的為何? → 讓原始資料變成更有資訊量、更容易被模型學習的輸入,進而提升預測效果。

Q:為什麼特徵工程常被視為重要前處理? → 因為很多模型不是資料越多就越準,而是特徵是否能表達問題本質更關鍵。

情境判斷

Q1: 把類別欄位轉成數字,這算特徵工程嗎?

算,因為你在改變資料表達方式,讓模型能更好地使用它。

Q2: 如果深度學習已經很強,特徵工程就完全不重要嗎?

不一定,深度學習能少做一些手工設計,但資料品質差、欄位混亂時,特徵工程還是很有價值。

常見問題

特徵工程一定要很會寫程式嗎?

不一定,懂資料和業務脈絡常比會不會套工具更重要。

特徵工程和資料清理是一樣的嗎?

不一樣,資料清理是修錯資料,特徵工程是把資料變得更能幫模型判斷。

特徵工程會不會過度依賴經驗?

會有這個風險,所以通常要搭配驗證集和交叉驗證檢查效果。

自動化特徵工程有沒有用?

有,但它適合先擴充候選方向,最後仍常需要人工判斷哪些特徵真的合理。

範例考題

某零售業者建立顧客行為預測模型,資料集中包含「年消費金額」、「平均單筆交易金額」及「會員年資」等數值型特徵。資料分析顯示,部分金額特徵呈現高度偏態分布,少數樣本的數值顯著高於多數觀測值。為降低極端值對模型學習穩定性的影響,下列哪一種特徵工程方法最適合?

  • A. 對數轉換(Log Transformation) ✓ 正確答案
  • B. 區間化(Binning)
  • C. One-hot 編碼(One-hot Encoding)
  • D. 隨機重抽樣(Random Resampling)

解析:

對數轉換能有效壓縮高度偏態分布的資料範圍,使極端值的影響降低,讓資料分布更接近常態。這是處理右偏分布數值特徵最常用的特徵工程方法。

立即測驗

想測試你對 特徵工程 的掌握程度? 開始模擬考