熵 是什麼?

Entropy — 熵 的完整解釋

熵是資訊理論中衡量隨機變數不確定性的指標,數值越高代表不確定性越大。在機器學習中,熵常用於特徵選擇和決策樹構建。

容易混淆

熵 vs 機率 機率是在說某件事會不會發生,熵是在說整體有多難猜。

熵 vs 交叉熵損失 熵量化的是資料本身的不確定性,交叉熵損失量化的是模型預測和真實分佈差多少。

熵 vs 資訊增益 熵看原始不確定性,資訊增益看用了某個特徵後,不確定性少了多少。

最關鍵的區別: 熵是「亂不亂」,資訊增益是「切完之後有沒有變得更清楚」。

記住這句就好

越難猜,熵越高。

實際案例

案例一:天氣預報 如果明天到底下不下雨只有兩種可能,而且機率差不多,熵就比「幾乎一定晴天」高,因為你更難猜。

案例二:決策樹切分 用年齡、收入或地區去分客戶時,模型會挑能讓節點更純的特徵,因為熵下降代表分類更清楚。

算法與應用

二元熵常寫成 H(X) = -p log p - (1-p) log(1-p),多類別則是把每個類別的機率都加進去。決策樹會找讓熵下降最多的切分點,因為那代表資料被切得更整齊。資訊壓縮、語言模型和困惑度分析,也常借用熵的概念來描述不確定性。

情境判斷

Q1(直覺題): 兩個班級,一個成績幾乎都集中在 80 分,另一個從 0 分到 100 分都很平均,哪個熵比較高?

→ 後者比較高,因為分布越平均、越難猜,熵就越高。

Q2(判斷題): 如果某個特徵的熵很低,是不是一定最適合拿來做分類?

→ 不一定,還要看它能不能把目標變數切開。熵低只代表這個特徵本身較集中,真正有沒有用要看資訊增益和任務目標。

相關術語

常見問題

熵的值越高代表什麼?

代表不確定性越大,也就是結果越難預測。

熵在決策樹中如何應用?

決策樹會比較不同切分點的熵,挑能讓資料更純、資訊增益更大的分裂方式。

交叉熵與熵有什麼關係?

交叉熵可以看成是拿模型預測的分佈去量真實分佈的成本,熵則只看真實分佈本身有多亂。