特徵選擇法(Feature Selection)是什麼?

特徵選擇是機器學習中選擇最相關特徵子集的過程,旨在簡化模型、提高準確性、減少過擬合和提升模型的可解釋性。|本頁含完整原理、應用場景、iPAS 考試重點與 4 個常見問答。

特徵選擇法(Feature Selection)是什麼? 機器學習資料處理

你有沒有一堆欄位在手上,卻只想留下真正有用的那幾個?

你可以把特徵選擇想成篩掉雜訊,留下最有價值的資料欄位,讓模型更專心看重點。

它重要,是因為欄位太多不一定更好,很多時候只會讓模型更慢、更亂,甚至更容易過擬合。

你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。

容易混淆

特徵選擇法 vs 特徵工程 特徵工程是把新特徵做出來。 特徵選擇法是從現有特徵裡挑出最值得保留的。

特徵選擇法 vs 降維處理 特徵選擇留下的是原本欄位。 降維處理會把欄位轉成新的低維表示。

記住這句就好

不一定要更多特徵,常常是更少但更準。

實際案例

醫療預測 病歷欄位很多,但真正和疾病相關的可能只有幾個,選對欄位能讓模型更容易解釋。

廣告點擊 很多行為欄位彼此重複,先選出最有訊號的特徵,訓練通常更快也更穩。

算法與應用

常見方法有過濾式、包裹式和嵌入式,分別對應快速篩選、模型迭代評估與內建選擇。 線性模型常搭配 L1 正則化,樹模型也常用特徵重要度做篩選。

iPAS 考題

Q:特徵選擇法的目的為何? → 保留最有用的特徵,降低模型複雜度,並減少噪聲和過擬合風險。

Q:特徵選擇法和降維處理差在哪裡? → 特徵選擇留下原始欄位,降維處理會產生新的低維特徵表示。

情境判斷

Q1: 如果特徵很多,但模型表現變差,先考慮特徵選擇合理嗎?

合理,因為多餘或重複的特徵可能讓模型更難學。

Q2: 把所有特徵都留著,一定比選過更好嗎?

不一定,若訊號很雜,選過的特徵反而常更穩、更容易解釋。

常見問題

特徵少就一定比較好嗎?

不一定,重點是保留足夠資訊,不是無腦砍欄位。

特徵選擇會不會把重要資訊刪掉?

會有這個風險,所以要配合驗證集和領域知識。

特徵選擇一定要看模型結果嗎?

最好要,不然你只是在猜哪些欄位有用。

和主成分分析哪個更直觀?

特徵選擇比較直觀,因為留下來的還是原始欄位。