你有沒有一堆欄位在手上,卻只想留下真正有用的那幾個?
你可以把特徵選擇想成篩掉雜訊,留下最有價值的資料欄位,讓模型更專心看重點。
它重要,是因為欄位太多不一定更好,很多時候只會讓模型更慢、更亂,甚至更容易過擬合。
你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。
容易混淆
特徵選擇法 vs 特徵工程 特徵工程是把新特徵做出來。 特徵選擇法是從現有特徵裡挑出最值得保留的。
特徵選擇法 vs 降維處理 特徵選擇留下的是原本欄位。 降維處理會把欄位轉成新的低維表示。
記住這句就好
不一定要更多特徵,常常是更少但更準。
實際案例
醫療預測 病歷欄位很多,但真正和疾病相關的可能只有幾個,選對欄位能讓模型更容易解釋。
廣告點擊 很多行為欄位彼此重複,先選出最有訊號的特徵,訓練通常更快也更穩。
算法與應用
常見方法有過濾式、包裹式和嵌入式,分別對應快速篩選、模型迭代評估與內建選擇。 線性模型常搭配 L1 正則化,樹模型也常用特徵重要度做篩選。
iPAS 考題
Q:特徵選擇法的目的為何? → 保留最有用的特徵,降低模型複雜度,並減少噪聲和過擬合風險。
Q:特徵選擇法和降維處理差在哪裡? → 特徵選擇留下原始欄位,降維處理會產生新的低維特徵表示。
情境判斷
Q1: 如果特徵很多,但模型表現變差,先考慮特徵選擇合理嗎?
Q2: 把所有特徵都留著,一定比選過更好嗎?
常見問題
特徵少就一定比較好嗎?
不一定,重點是保留足夠資訊,不是無腦砍欄位。
特徵選擇會不會把重要資訊刪掉?
會有這個風險,所以要配合驗證集和領域知識。
特徵選擇一定要看模型結果嗎?
最好要,不然你只是在猜哪些欄位有用。
和主成分分析哪個更直觀?
特徵選擇比較直觀,因為留下來的還是原始欄位。