iPAS AI 應用規劃師 中級 科目三 機器學習技術與應用

資訊增益主要應用在哪類模型?

原題 08

資訊增益(Information Gain)常用於衡量特徵對分類結果的不確定性貢獻程度,並據以進行特徵選擇。此方法主要應用於下列哪一類模型架構中?

白話

資訊增益是一種衡量「一個特徵對降低分類不確定性有多大幫助」的指標,可以用來決定特徵的重要程度。

問你:資訊增益這個方法主要用在哪一類模型架構裡?

點選你的答案。

01 總結

一句話總結

資訊增益是決策樹模型選擇「在哪個特徵上分叉」的核心依據:每次分裂選資訊增益最大的特徵,讓子節點的類別盡可能純粹。

02 情境

先感受問題:銀行如何決定貸款審核流程

國泰世華的信貸審核員要把貸款申請人分成「核准」或「拒絕」。他們有幾個特徵可以問:

  • 年齡:20-30 歲 / 30-50 歲 / 50 歲以上
  • 年收入:高 / 中 / 低
  • 信用評分:良好 / 普通 / 不佳
  • 有無房產:有 / 無

第一個問題要問哪個?問了之後能最有效地把人分成「高風險」和「低風險」的,就是最有「資訊價值」的特徵。

資訊增益就是在量化「問完這個問題之後,我對結果的不確定性降低了多少」。不確定性降得最多的特徵,就是第一個分叉的依據。

03 對照

沒有量化指標時怎麼選分叉點

  1. 憑直覺選特徵:審核員可能覺得「年收入最重要」,但實際上信用評分可能更有區分力,沒有計算就是猜測。
  2. 嘗試所有組合:4 個特徵有 4! = 24 種排序,每種都試一次才能找最好的,效率低。
  3. 無法量化「多有用」:直覺說某個特徵「比較重要」,但重要多少?沒辦法比較。
  4. 不同資料集結果不一致:同一個人每次判斷可能不同,無法複製。
  5. 無法自動化建樹:沒有量化標準,電腦不知道怎麼自動選分叉點,決策樹演算法就無法運作。
04 解法

資訊增益怎麼幫決策樹選分叉點

資訊增益的計算流程:

  1. 計算目前節點的「不純度」(Entropy,熵):如果一半人核准一半人拒絕,熵最高(最不確定);如果全部核准,熵為零(最確定)。
  2. 試著用某個特徵(例如信用評分)把資料分成幾組,計算每組的熵再加權平均。
  3. 資訊增益 = 分割前的熵 - 分割後的加權平均熵。增益越大,這個特徵越有區分力。
  4. 對所有候選特徵都算一遍,選增益最大的那個當分叉點。

國泰世華的案例:算出來信用評分的資訊增益最大(核准率在三個等級差異很大),所以第一個問題就問信用評分。第一層分叉完後,在每個子節點繼續重複這個流程,直到每個節點的資料夠純粹或達到深度限制。

這就是選項 D 講的:透過遞迴分裂方式建立分類規則的決策樹模型

技術版:資訊增益在決策樹與特徵選擇中的應用

資訊增益(Information Gain)源自資訊理論(Information Theory),與熵(Entropy)概念緊密相連,在機器學習中主要用於決策樹的節點分裂準則選擇。

常見的決策樹分裂準則:

  • ID3 演算法:使用資訊增益(Information Gain)。
  • C4.5 演算法:使用資訊增益比(Gain Ratio),修正了資訊增益偏好多值特徵的問題。
  • CART 演算法:使用基尼不純度(Gini Impurity),計算上更快,是 sklearn 的預設。

資訊增益的侷限:偏向選擇取值多的特徵(例如 ID 編號每筆資料都不同,資訊增益最大但毫無預測力),C4.5 的增益比修正了這個問題。

延伸應用:資訊增益也用在特徵選擇(Filter 方法),計算每個特徵對目標變數的資訊增益,保留增益高的特徵。這在文本分類中特別常用(從幾萬個詞中篩出最有區分力的幾百個)。

為什麼出題者要考這題:資訊增益是決策樹的核心概念,也是理解「熵」在機器學習中應用的入門知識點。能正確識別它跟決策樹的關聯,而非 SVM、神經網路等其他模型,考驗基礎架構知識的整合能力。

05 陷阱

為什麼其他選項是錯的

A使用 L1 正則化進行特徵篩選的線性模型

字面在說什麼

線性迴歸或邏輯迴歸加上 L1 正則化(Lasso),讓部分係數歸零來篩選特徵。

為什麼不對

L1 正則化的特徵選擇是透過「懲罰係數大小讓係數歸零」,完全不涉及資訊增益的計算。線性模型沒有「遞迴分裂」的概念,資訊增益對它毫無意義。

誰會選錯

知道 L1 也能做特徵選擇,把「特徵選擇」和「資訊增益」的連結搞混的人。兩者都能選特徵,但機制完全不同:L1 靠懲罰項,資訊增益靠熵計算。

B利用激活函數(Activation Function)進行特徵擷取的深度神經網路

字面在說什麼

深度神經網路每層透過激活函數做非線性變換,從原始輸入中自動提取有用特徵。

為什麼不對

神經網路的特徵提取是靠反向傳播調整權重,和資訊增益無關。激活函數是非線性映射,不是基於資訊理論的不確定性度量。深度學習架構從不使用資訊增益來選擇神經元或層的配置。

誰會選錯

對神經網路「特徵擷取」和「資訊增益」這兩個詞都有些印象,但沒掌握各自歸屬的人。

C透過核函數(Kernel Function)將特徵映射至高維空間的分類模型

字面在說什麼

這是支持向量機(SVM):在原始特徵空間找不到線性決策邊界時,用核函數把資料映射到高維空間,在那裡找到分割超平面。

為什麼不對

SVM 的決策邊界由支持向量決定,不需要計算任何特徵的熵或資訊增益。SVM 的特徵選擇通常用其他方法(如 RFE,遞迴特徵消除),而非資訊增益。

誰會選錯

記得 SVM 也有「映射特徵空間」的操作,把「特徵映射」和「特徵增益」混在一起的人。記住:核函數做的是幾何映射,資訊增益是資訊理論計算,兩者完全不同。

06 變形

同個考點下次怎麼變形

變形 1

基尼不純度(Gini Impurity)和資訊增益有什麼差?

直覺

CART 用基尼不純度,ID3/C4.5 用資訊增益,都是決策樹的分裂準則。

答案

兩者都衡量節點的不純度,但計算方式不同:熵用對數計算(信息量),基尼不純度用平方計算(更快)。實際上兩者選出的特徵通常差不多,sklearn 預設用基尼不純度,因為計算速度稍快。

變形 2

決策樹的深度越深,資訊增益計算有什麼影響?

直覺

樹越深,節點越多,每個節點的資料量越少。

答案

越深的節點樣本量越少,熵計算越不穩定,選出的分叉點可能是噪音而非真實規律,導致過擬合。實務上用最大深度(max_depth)、最小葉節點樣本數(min_samples_leaf)等參數控制樹的複雜度。

變形 3

隨機森林(Random Forest)還用資訊增益嗎?

直覺

隨機森林是很多決策樹的集合,每棵樹應該也要選分叉點。

答案

是的,隨機森林的每棵決策樹仍然用資訊增益(或基尼)來選分叉點,但每次分叉只從隨機子集的特徵中選,而非全部特徵。這個隨機性讓每棵樹都不同,集成後泛化能力更強。

變形 4

決策樹的「特徵重要性」(Feature Importance)怎麼計算?

直覺

訓練完一棵決策樹,可以知道哪個特徵最重要。

答案

累計每個特徵在所有分叉節點中帶來的資訊增益(或基尼不純度降低量),除以資料總量加權平均。被選到越多次且帶來越大增益的特徵,重要性越高。這讓決策樹自帶可解釋的特徵重要性排名。

變形 5

連續型特徵在決策樹中怎麼處理?

直覺

資訊增益是對類別型特徵計算的,但年齡、收入是連續數值。

答案

決策樹對連續型特徵做「二元分割」:先排序所有候選分割點(例如年齡 30、35、40…),對每個點計算分成「≤ 閾值」和「> 閾值」兩組後的資訊增益,選增益最大的那個切點。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 114 年第二梯次 iPAS AI 應用規劃師 中級 科目三 機器學習技術與應用 第 8 題

查看官方原文 PDF