熵 是什麼?
Entropy — 熵 的完整解釋
熵是資訊理論中衡量隨機變數不確定性的指標,數值越高代表不確定性越大。在機器學習中,熵常用於特徵選擇和決策樹構建。
容易混淆
熵 vs 機率 機率是在說某件事會不會發生,熵是在說整體有多難猜。
熵 vs 交叉熵損失 熵量化的是資料本身的不確定性,交叉熵損失量化的是模型預測和真實分佈差多少。
熵 vs 資訊增益 熵看原始不確定性,資訊增益看用了某個特徵後,不確定性少了多少。
最關鍵的區別: 熵是「亂不亂」,資訊增益是「切完之後有沒有變得更清楚」。
記住這句就好
越難猜,熵越高。
實際案例
案例一:天氣預報 如果明天到底下不下雨只有兩種可能,而且機率差不多,熵就比「幾乎一定晴天」高,因為你更難猜。
案例二:決策樹切分 用年齡、收入或地區去分客戶時,模型會挑能讓節點更純的特徵,因為熵下降代表分類更清楚。
算法與應用
二元熵常寫成
H(X) = -p log p - (1-p) log(1-p),多類別則是把每個類別的機率都加進去。決策樹會找讓熵下降最多的切分點,因為那代表資料被切得更整齊。資訊壓縮、語言模型和困惑度分析,也常借用熵的概念來描述不確定性。
情境判斷
Q1(直覺題): 兩個班級,一個成績幾乎都集中在 80 分,另一個從 0 分到 100 分都很平均,哪個熵比較高?
→ 後者比較高,因為分布越平均、越難猜,熵就越高。
Q2(判斷題): 如果某個特徵的熵很低,是不是一定最適合拿來做分類?
→ 不一定,還要看它能不能把目標變數切開。熵低只代表這個特徵本身較集中,真正有沒有用要看資訊增益和任務目標。
相關術語
常見問題
熵的值越高代表什麼?
代表不確定性越大,也就是結果越難預測。
熵在決策樹中如何應用?
決策樹會比較不同切分點的熵,挑能讓資料更純、資訊增益更大的分裂方式。
交叉熵與熵有什麼關係?
交叉熵可以看成是拿模型預測的分佈去量真實分佈的成本,熵則只看真實分佈本身有多亂。