iPAS AI 應用規劃師中級　科目三　機器學習技術與應用

資訊增益主要應用在哪類模型？

原題 08

資訊增益（Information Gain）常用於衡量特徵對分類結果的不確定性貢獻程度，並據以進行特徵選擇。此方法主要應用於下列哪一類模型架構中？

白話

資訊增益是一種衡量「一個特徵對降低分類不確定性有多大幫助」的指標，可以用來決定特徵的重要程度。

問你：資訊增益這個方法主要用在哪一類模型架構裡？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

資訊增益是決策樹模型選擇「在哪個特徵上分叉」的核心依據：每次分裂選資訊增益最大的特徵，讓子節點的類別盡可能純粹。

02　情境

先感受問題：銀行如何決定貸款審核流程
國泰世華的信貸審核員要把貸款申請人分成「核准」或「拒絕」。他們有幾個特徵可以問：

年齡：20-30 歲 / 30-50 歲 / 50 歲以上

年收入：高 / 中 / 低

信用評分：良好 / 普通 / 不佳

有無房產：有 / 無

第一個問題要問哪個？問了之後能最有效地把人分成「高風險」和「低風險」的，就是最有「資訊價值」的特徵。

資訊增益就是在量化「問完這個問題之後，我對結果的不確定性降低了多少」。不確定性降得最多的特徵，就是第一個分叉的依據。

03　對照

沒有量化指標時怎麼選分叉點

憑直覺選特徵：審核員可能覺得「年收入最重要」，但實際上信用評分可能更有區分力，沒有計算就是猜測。
嘗試所有組合：4 個特徵有 4! = 24 種排序，每種都試一次才能找最好的，效率低。
無法量化「多有用」：直覺說某個特徵「比較重要」，但重要多少？沒辦法比較。
不同資料集結果不一致：同一個人每次判斷可能不同，無法複製。
無法自動化建樹：沒有量化標準，電腦不知道怎麼自動選分叉點，決策樹演算法就無法運作。

04　解法

資訊增益怎麼幫決策樹選分叉點

資訊增益的計算流程：

計算目前節點的「不純度」（Entropy，熵）：如果一半人核准一半人拒絕，熵最高（最不確定）；如果全部核准，熵為零（最確定）。
試著用某個特徵（例如信用評分）把資料分成幾組，計算每組的熵再加權平均。
資訊增益 = 分割前的熵 - 分割後的加權平均熵。增益越大，這個特徵越有區分力。
對所有候選特徵都算一遍，選增益最大的那個當分叉點。

國泰世華的案例：算出來信用評分的資訊增益最大（核准率在三個等級差異很大），所以第一個問題就問信用評分。第一層分叉完後，在每個子節點繼續重複這個流程，直到每個節點的資料夠純粹或達到深度限制。

這就是選項 D 講的：透過遞迴分裂方式建立分類規則的決策樹模型。

技術版：資訊增益在決策樹與特徵選擇中的應用

資訊增益（Information Gain）源自資訊理論（Information Theory），與熵（Entropy）概念緊密相連，在機器學習中主要用於決策樹的節點分裂準則選擇。

常見的決策樹分裂準則：

ID3 演算法：使用資訊增益（Information Gain）。
C4.5 演算法：使用資訊增益比（Gain Ratio），修正了資訊增益偏好多值特徵的問題。
CART 演算法：使用基尼不純度（Gini Impurity），計算上更快，是 sklearn 的預設。

資訊增益的侷限：偏向選擇取值多的特徵（例如 ID 編號每筆資料都不同，資訊增益最大但毫無預測力），C4.5 的增益比修正了這個問題。

延伸應用：資訊增益也用在特徵選擇（Filter 方法），計算每個特徵對目標變數的資訊增益，保留增益高的特徵。這在文本分類中特別常用（從幾萬個詞中篩出最有區分力的幾百個）。

為什麼出題者要考這題：資訊增益是決策樹的核心概念，也是理解「熵」在機器學習中應用的入門知識點。能正確識別它跟決策樹的關聯，而非 SVM、神經網路等其他模型，考驗基礎架構知識的整合能力。

05　陷阱

為什麼其他選項是錯的

A使用 L1 正則化進行特徵篩選的線性模型

字面在說什麼

線性迴歸或邏輯迴歸加上 L1 正則化（Lasso），讓部分係數歸零來篩選特徵。

為什麼不對

L1 正則化的特徵選擇是透過「懲罰係數大小讓係數歸零」，完全不涉及資訊增益的計算。線性模型沒有「遞迴分裂」的概念，資訊增益對它毫無意義。

誰會選錯

知道 L1 也能做特徵選擇，把「特徵選擇」和「資訊增益」的連結搞混的人。兩者都能選特徵，但機制完全不同：L1 靠懲罰項，資訊增益靠熵計算。

B利用激活函數（Activation Function）進行特徵擷取的深度神經網路

字面在說什麼

深度神經網路每層透過激活函數做非線性變換，從原始輸入中自動提取有用特徵。

為什麼不對

神經網路的特徵提取是靠反向傳播調整權重，和資訊增益無關。激活函數是非線性映射，不是基於資訊理論的不確定性度量。深度學習架構從不使用資訊增益來選擇神經元或層的配置。

誰會選錯

對神經網路「特徵擷取」和「資訊增益」這兩個詞都有些印象，但沒掌握各自歸屬的人。

C透過核函數（Kernel Function）將特徵映射至高維空間的分類模型

字面在說什麼

這是支持向量機（SVM）：在原始特徵空間找不到線性決策邊界時，用核函數把資料映射到高維空間，在那裡找到分割超平面。

為什麼不對

SVM 的決策邊界由支持向量決定，不需要計算任何特徵的熵或資訊增益。SVM 的特徵選擇通常用其他方法（如 RFE，遞迴特徵消除），而非資訊增益。

誰會選錯

記得 SVM 也有「映射特徵空間」的操作，把「特徵映射」和「特徵增益」混在一起的人。記住：核函數做的是幾何映射，資訊增益是資訊理論計算，兩者完全不同。

06　變形

同個考點下次怎麼變形

變形 1

基尼不純度（Gini Impurity）和資訊增益有什麼差？

直覺

CART 用基尼不純度，ID3/C4.5 用資訊增益，都是決策樹的分裂準則。

答案

兩者都衡量節點的不純度，但計算方式不同：熵用對數計算（信息量），基尼不純度用平方計算（更快）。實際上兩者選出的特徵通常差不多，sklearn 預設用基尼不純度，因為計算速度稍快。

變形 2

決策樹的深度越深，資訊增益計算有什麼影響？

直覺

樹越深，節點越多，每個節點的資料量越少。

答案

越深的節點樣本量越少，熵計算越不穩定，選出的分叉點可能是噪音而非真實規律，導致過擬合。實務上用最大深度（max_depth）、最小葉節點樣本數（min_samples_leaf）等參數控制樹的複雜度。

變形 3

隨機森林（Random Forest）還用資訊增益嗎？

直覺

隨機森林是很多決策樹的集合，每棵樹應該也要選分叉點。

答案

是的，隨機森林的每棵決策樹仍然用資訊增益（或基尼）來選分叉點，但每次分叉只從隨機子集的特徵中選，而非全部特徵。這個隨機性讓每棵樹都不同，集成後泛化能力更強。

變形 4

決策樹的「特徵重要性」（Feature Importance）怎麼計算？

直覺

訓練完一棵決策樹，可以知道哪個特徵最重要。

答案

累計每個特徵在所有分叉節點中帶來的資訊增益（或基尼不純度降低量），除以資料總量加權平均。被選到越多次且帶來越大增益的特徵，重要性越高。這讓決策樹自帶可解釋的特徵重要性排名。

變形 5

連續型特徵在決策樹中怎麼處理？

直覺

資訊增益是對類別型特徵計算的，但年齡、收入是連續數值。

答案

決策樹對連續型特徵做「二元分割」：先排序所有候選分割點（例如年齡 30、35、40…），對每個點計算分成「≤ 閾值」和「> 閾值」兩組後的資訊增益，選增益最大的那個切點。

07　延伸

想再往下看，這 5 個

決策樹（Decision Tree）本題核心架構，使用資訊增益遞迴選擇最佳分叉特徵，建立可解釋的分類規則。
熵（Entropy）資訊增益的計算基礎，衡量資料集的不確定程度，熵越高代表越混亂。
隨機森林（Random Forest）決策樹的集成版本，每棵子樹仍使用資訊增益選分叉，集成後泛化能力大幅提升。
特徵選擇法（Feature Selection）資訊增益也用在訓練前的特徵篩選，計算每個特徵對目標的貢獻程度。
資訊理論（Information Theory）資訊增益和熵的理論根源，香農（Claude Shannon）奠定的數學基礎，廣泛應用於機器學習和通訊工程。