資訊增益主要應用在哪類模型?
資訊增益(Information Gain)常用於衡量特徵對分類結果的不確定性貢獻程度,並據以進行特徵選擇。此方法主要應用於下列哪一類模型架構中?
資訊增益是一種衡量「一個特徵對降低分類不確定性有多大幫助」的指標,可以用來決定特徵的重要程度。
問你:資訊增益這個方法主要用在哪一類模型架構裡?
一句話總結
資訊增益是決策樹模型選擇「在哪個特徵上分叉」的核心依據:每次分裂選資訊增益最大的特徵,讓子節點的類別盡可能純粹。
先感受問題:銀行如何決定貸款審核流程
國泰世華的信貸審核員要把貸款申請人分成「核准」或「拒絕」。他們有幾個特徵可以問:
- 年齡:20-30 歲 / 30-50 歲 / 50 歲以上
- 年收入:高 / 中 / 低
- 信用評分:良好 / 普通 / 不佳
- 有無房產:有 / 無
第一個問題要問哪個?問了之後能最有效地把人分成「高風險」和「低風險」的,就是最有「資訊價值」的特徵。
資訊增益就是在量化「問完這個問題之後,我對結果的不確定性降低了多少」。不確定性降得最多的特徵,就是第一個分叉的依據。
沒有量化指標時怎麼選分叉點
- 憑直覺選特徵:審核員可能覺得「年收入最重要」,但實際上信用評分可能更有區分力,沒有計算就是猜測。
- 嘗試所有組合:4 個特徵有 4! = 24 種排序,每種都試一次才能找最好的,效率低。
- 無法量化「多有用」:直覺說某個特徵「比較重要」,但重要多少?沒辦法比較。
- 不同資料集結果不一致:同一個人每次判斷可能不同,無法複製。
- 無法自動化建樹:沒有量化標準,電腦不知道怎麼自動選分叉點,決策樹演算法就無法運作。
資訊增益怎麼幫決策樹選分叉點
資訊增益的計算流程:
- 計算目前節點的「不純度」(Entropy,熵):如果一半人核准一半人拒絕,熵最高(最不確定);如果全部核准,熵為零(最確定)。
- 試著用某個特徵(例如信用評分)把資料分成幾組,計算每組的熵再加權平均。
- 資訊增益 = 分割前的熵 - 分割後的加權平均熵。增益越大,這個特徵越有區分力。
- 對所有候選特徵都算一遍,選增益最大的那個當分叉點。
國泰世華的案例:算出來信用評分的資訊增益最大(核准率在三個等級差異很大),所以第一個問題就問信用評分。第一層分叉完後,在每個子節點繼續重複這個流程,直到每個節點的資料夠純粹或達到深度限制。
這就是選項 D 講的:透過遞迴分裂方式建立分類規則的決策樹模型。
技術版:資訊增益在決策樹與特徵選擇中的應用
資訊增益(Information Gain)源自資訊理論(Information Theory),與熵(Entropy)概念緊密相連,在機器學習中主要用於決策樹的節點分裂準則選擇。
常見的決策樹分裂準則:
- ID3 演算法:使用資訊增益(Information Gain)。
- C4.5 演算法:使用資訊增益比(Gain Ratio),修正了資訊增益偏好多值特徵的問題。
- CART 演算法:使用基尼不純度(Gini Impurity),計算上更快,是 sklearn 的預設。
資訊增益的侷限:偏向選擇取值多的特徵(例如 ID 編號每筆資料都不同,資訊增益最大但毫無預測力),C4.5 的增益比修正了這個問題。
延伸應用:資訊增益也用在特徵選擇(Filter 方法),計算每個特徵對目標變數的資訊增益,保留增益高的特徵。這在文本分類中特別常用(從幾萬個詞中篩出最有區分力的幾百個)。
為什麼出題者要考這題:資訊增益是決策樹的核心概念,也是理解「熵」在機器學習中應用的入門知識點。能正確識別它跟決策樹的關聯,而非 SVM、神經網路等其他模型,考驗基礎架構知識的整合能力。
為什麼其他選項是錯的
A使用 L1 正則化進行特徵篩選的線性模型
線性迴歸或邏輯迴歸加上 L1 正則化(Lasso),讓部分係數歸零來篩選特徵。
L1 正則化的特徵選擇是透過「懲罰係數大小讓係數歸零」,完全不涉及資訊增益的計算。線性模型沒有「遞迴分裂」的概念,資訊增益對它毫無意義。
知道 L1 也能做特徵選擇,把「特徵選擇」和「資訊增益」的連結搞混的人。兩者都能選特徵,但機制完全不同:L1 靠懲罰項,資訊增益靠熵計算。
B利用激活函數(Activation Function)進行特徵擷取的深度神經網路
深度神經網路每層透過激活函數做非線性變換,從原始輸入中自動提取有用特徵。
神經網路的特徵提取是靠反向傳播調整權重,和資訊增益無關。激活函數是非線性映射,不是基於資訊理論的不確定性度量。深度學習架構從不使用資訊增益來選擇神經元或層的配置。
對神經網路「特徵擷取」和「資訊增益」這兩個詞都有些印象,但沒掌握各自歸屬的人。
C透過核函數(Kernel Function)將特徵映射至高維空間的分類模型
這是支持向量機(SVM):在原始特徵空間找不到線性決策邊界時,用核函數把資料映射到高維空間,在那裡找到分割超平面。
SVM 的決策邊界由支持向量決定,不需要計算任何特徵的熵或資訊增益。SVM 的特徵選擇通常用其他方法(如 RFE,遞迴特徵消除),而非資訊增益。
記得 SVM 也有「映射特徵空間」的操作,把「特徵映射」和「特徵增益」混在一起的人。記住:核函數做的是幾何映射,資訊增益是資訊理論計算,兩者完全不同。
同個考點下次怎麼變形
基尼不純度(Gini Impurity)和資訊增益有什麼差?
CART 用基尼不純度,ID3/C4.5 用資訊增益,都是決策樹的分裂準則。
兩者都衡量節點的不純度,但計算方式不同:熵用對數計算(信息量),基尼不純度用平方計算(更快)。實際上兩者選出的特徵通常差不多,sklearn 預設用基尼不純度,因為計算速度稍快。
決策樹的深度越深,資訊增益計算有什麼影響?
樹越深,節點越多,每個節點的資料量越少。
越深的節點樣本量越少,熵計算越不穩定,選出的分叉點可能是噪音而非真實規律,導致過擬合。實務上用最大深度(max_depth)、最小葉節點樣本數(min_samples_leaf)等參數控制樹的複雜度。
隨機森林(Random Forest)還用資訊增益嗎?
隨機森林是很多決策樹的集合,每棵樹應該也要選分叉點。
是的,隨機森林的每棵決策樹仍然用資訊增益(或基尼)來選分叉點,但每次分叉只從隨機子集的特徵中選,而非全部特徵。這個隨機性讓每棵樹都不同,集成後泛化能力更強。
決策樹的「特徵重要性」(Feature Importance)怎麼計算?
訓練完一棵決策樹,可以知道哪個特徵最重要。
累計每個特徵在所有分叉節點中帶來的資訊增益(或基尼不純度降低量),除以資料總量加權平均。被選到越多次且帶來越大增益的特徵,重要性越高。這讓決策樹自帶可解釋的特徵重要性排名。
連續型特徵在決策樹中怎麼處理?
資訊增益是對類別型特徵計算的,但年齡、收入是連續數值。
決策樹對連續型特徵做「二元分割」:先排序所有候選分割點(例如年齡 30、35、40…),對每個點計算分成「≤ 閾值」和「> 閾值」兩組後的資訊增益,選增益最大的那個切點。
想再往下看,這 5 個
- 決策樹(Decision Tree)本題核心架構,使用資訊增益遞迴選擇最佳分叉特徵,建立可解釋的分類規則。
- 熵(Entropy)資訊增益的計算基礎,衡量資料集的不確定程度,熵越高代表越混亂。
- 隨機森林(Random Forest)決策樹的集成版本,每棵子樹仍使用資訊增益選分叉,集成後泛化能力大幅提升。
- 特徵選擇法(Feature Selection)資訊增益也用在訓練前的特徵篩選,計算每個特徵對目標的貢獻程度。
- 資訊理論(Information Theory)資訊增益和熵的理論根源,香農(Claude Shannon)奠定的數學基礎,廣泛應用於機器學習和通訊工程。