解析:
對數轉換能有效壓縮高度偏態分布的資料範圍,使極端值的影響降低,讓資料分布更接近常態。這是處理右偏分布數值特徵最常用的特徵工程方法。
特徵工程透過創建、轉換與選擇原始資料的代表性特徵,顯著提升機器學習模型的預測效果|本頁含完整原理、應用場景、iPAS 考試重點與 4 個常見問答。
你有沒有遇過,資料明明一大堆,模型卻還是學不太好?
你可以把特徵工程想成幫原始資料做整理和加工,把模型比較好懂的資訊做出來,讓它更容易看出規律。
它重要,是因為資料本身不會自己變成好特徵,很多時候模型準不準,先看你餵進去的是不是好特徵。
特徵工程 vs 特徵擷取 特徵工程偏向人為設計和轉換,像把生日變成年齡。 特徵擷取偏向從原始資料自動抽出表示,像把圖片轉成向量特徵。
特徵工程 vs 模型訓練 特徵工程是在準備輸入。 模型訓練是在學怎麼用這些輸入做預測,兩者前後順序不同。
特徵做得好,模型才有材料可學。
信用評分 把收入、負債比、繳款紀錄整理成更有判斷力的欄位,模型才比較能分出風險。
電商推薦 把最近點擊、瀏覽次數、品類偏好整理成特徵,推薦結果通常會比只看原始交易表更準。
常見做法包含數值轉換、類別編碼、時間特徵、交互特徵和缺值處理。 在傳統機器學習裡,它常直接影響模型上限,在深度學習裡,仍會影響輸入品質與訓練穩定度。
Q:特徵工程的主要目的為何? → 讓原始資料變成更有資訊量、更容易被模型學習的輸入,進而提升預測效果。
Q:為什麼特徵工程常被視為重要前處理? → 因為很多模型不是資料越多就越準,而是特徵是否能表達問題本質更關鍵。
Q1: 把類別欄位轉成數字,這算特徵工程嗎?
Q2: 如果深度學習已經很強,特徵工程就完全不重要嗎?
不一定,懂資料和業務脈絡常比會不會套工具更重要。
不一樣,資料清理是修錯資料,特徵工程是把資料變得更能幫模型判斷。
會有這個風險,所以通常要搭配驗證集和交叉驗證檢查效果。
有,但它適合先擴充候選方向,最後仍常需要人工判斷哪些特徵真的合理。
某零售業者建立顧客行為預測模型,資料集中包含「年消費金額」、「平均單筆交易金額」及「會員年資」等數值型特徵。資料分析顯示,部分金額特徵呈現高度偏態分布,少數樣本的數值顯著高於多數觀測值。為降低極端值對模型學習穩定性的影響,下列哪一種特徵工程方法最適合?
解析:
對數轉換能有效壓縮高度偏態分布的資料範圍,使極端值的影響降低,讓資料分布更接近常態。這是處理右偏分布數值特徵最常用的特徵工程方法。
想測試你對 特徵工程 的掌握程度? 開始模擬考