你有沒有玩過猜答案遊戲,越猜越覺得還有很多可能? 你可以把熵想成不確定性的溫度,越亂、越難猜,熵就越高。 它其實就是資訊理論裡用來衡量隨機變數有多不確定的指標,也常拿來幫決策樹挑特徵和分裂點。
你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。
容易混淆
熵 vs 機率 機率是在說某件事會不會發生,熵是在說整體有多難猜。
熵 vs 交叉熵損失 熵量化的是資料本身的不確定性,交叉熵損失量化的是模型預測和真實分佈差多少。
熵 vs 資訊增益 熵看原始不確定性,資訊增益看用了某個特徵後,不確定性少了多少。
最關鍵的區別: 熵是「亂不亂」,資訊增益是「切完之後有沒有變得更清楚」。
記住這句就好
越難猜,熵越高。
實際案例
案例一:天氣預報 如果明天到底下不下雨只有兩種可能,而且機率差不多,熵就比「幾乎一定晴天」高,因為你更難猜。
案例二:決策樹切分 用年齡、收入或地區去分客戶時,模型會挑能讓節點更純的特徵,因為熵下降代表分類更清楚。
算法與應用
二元熵常寫成
H(X) = -p log p - (1-p) log(1-p),多類別則是把每個類別的機率都加進去。決策樹會找讓熵下降最多的切分點,因為那代表資料被切得更整齊。資訊壓縮、語言模型和困惑度分析,也常借用熵的概念來描述不確定性。
情境判斷
Q1(直覺題): 兩個班級,一個成績幾乎都集中在 80 分,另一個從 0 分到 100 分都很平均,哪個熵比較高?
→ 後者比較高,因為分布越平均、越難猜,熵就越高。
Q2(判斷題): 如果某個特徵的熵很低,是不是一定最適合拿來做分類?
→ 不一定,還要看它能不能把目標變數切開。熵低只代表這個特徵本身較集中,真正有沒有用要看資訊增益和任務目標。
常見問題
熵的值越高代表什麼?
代表不確定性越大,也就是結果越難預測。
熵在決策樹中如何應用?
決策樹會比較不同切分點的熵,挑能讓資料更純、資訊增益更大的分裂方式。
交叉熵與熵有什麼關係?
交叉熵可以看成是拿模型預測的分佈去量真實分佈的成本,熵則只看真實分佈本身有多亂。