Entropy（熵）是什麼？完整定義與解說

Q: 熵的值越高代表什麼？

代表不確定性越大，也就是結果越難預測。

你有沒有玩過猜答案遊戲，越猜越覺得還有很多可能？ 你可以把熵想成不確定性的溫度，越亂、越難猜，熵就越高。它其實就是資訊理論裡用來衡量隨機變數有多不確定的指標，也常拿來幫決策樹挑特徵和分裂點。

你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

容易混淆

熵 vs 機率 機率是在說某件事會不會發生，熵是在說整體有多難猜。

熵 vs 交叉熵損失 熵量化的是資料本身的不確定性，交叉熵損失量化的是模型預測和真實分佈差多少。

熵 vs 資訊增益 熵看原始不確定性，資訊增益看用了某個特徵後，不確定性少了多少。

最關鍵的區別： 熵是「亂不亂」，資訊增益是「切完之後有沒有變得更清楚」。

記住這句就好

越難猜，熵越高。

實際案例

案例一：天氣預報 如果明天到底下不下雨只有兩種可能，而且機率差不多，熵就比「幾乎一定晴天」高，因為你更難猜。

案例二：決策樹切分 用年齡、收入或地區去分客戶時，模型會挑能讓節點更純的特徵，因為熵下降代表分類更清楚。

算法與應用

二元熵常寫成 H(X) = -p log p - (1-p) log(1-p)，多類別則是把每個類別的機率都加進去。決策樹會找讓熵下降最多的切分點，因為那代表資料被切得更整齊。資訊壓縮、語言模型和困惑度分析，也常借用熵的概念來描述不確定性。

情境判斷

Q1（直覺題）： 兩個班級，一個成績幾乎都集中在 80 分，另一個從 0 分到 100 分都很平均，哪個熵比較高？

→ 後者比較高，因為分布越平均、越難猜，熵就越高。

Q2（判斷題）： 如果某個特徵的熵很低，是不是一定最適合拿來做分類？

→ 不一定，還要看它能不能把目標變數切開。熵低只代表這個特徵本身較集中，真正有沒有用要看資訊增益和任務目標。

常見問題

熵的值越高代表什麼？

代表不確定性越大，也就是結果越難預測。

熵在決策樹中如何應用？

決策樹會比較不同切分點的熵，挑能讓資料更純、資訊增益更大的分裂方式。

交叉熵與熵有什麼關係？

交叉熵可以看成是拿模型預測的分佈去量真實分佈的成本，熵則只看真實分佈本身有多亂。

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

常見問題

相關術語

延伸學習

資料來源與參考依據