熵是什麼？

Q: 熵的值越高代表什麼？

代表不確定性越大，也就是結果越難預測。

Entropy — 熵的完整解釋

熵是資訊理論中衡量隨機變數不確定性的指標，數值越高代表不確定性越大。在機器學習中，熵常用於特徵選擇和決策樹構建。

容易混淆

熵 vs 機率 機率是在說某件事會不會發生，熵是在說整體有多難猜。

熵 vs 交叉熵損失 熵量化的是資料本身的不確定性，交叉熵損失量化的是模型預測和真實分佈差多少。

熵 vs 資訊增益 熵看原始不確定性，資訊增益看用了某個特徵後，不確定性少了多少。

最關鍵的區別： 熵是「亂不亂」，資訊增益是「切完之後有沒有變得更清楚」。

記住這句就好

越難猜，熵越高。

實際案例

案例一：天氣預報 如果明天到底下不下雨只有兩種可能，而且機率差不多，熵就比「幾乎一定晴天」高，因為你更難猜。

案例二：決策樹切分 用年齡、收入或地區去分客戶時，模型會挑能讓節點更純的特徵，因為熵下降代表分類更清楚。

算法與應用

二元熵常寫成 H(X) = -p log p - (1-p) log(1-p)，多類別則是把每個類別的機率都加進去。決策樹會找讓熵下降最多的切分點，因為那代表資料被切得更整齊。資訊壓縮、語言模型和困惑度分析，也常借用熵的概念來描述不確定性。

情境判斷

Q1（直覺題）： 兩個班級，一個成績幾乎都集中在 80 分，另一個從 0 分到 100 分都很平均，哪個熵比較高？

→ 後者比較高，因為分布越平均、越難猜，熵就越高。

Q2（判斷題）： 如果某個特徵的熵很低，是不是一定最適合拿來做分類？

→ 不一定，還要看它能不能把目標變數切開。熵低只代表這個特徵本身較集中，真正有沒有用要看資訊增益和任務目標。

常見問題

熵的值越高代表什麼？

代表不確定性越大，也就是結果越難預測。

熵在決策樹中如何應用？

決策樹會比較不同切分點的熵，挑能讓資料更純、資訊增益更大的分裂方式。

交叉熵與熵有什麼關係？

交叉熵可以看成是拿模型預測的分佈去量真實分佈的成本，熵則只看真實分佈本身有多亂。

← 回到熵快查頁

熵是什麼？

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

相關術語

相關術語

常見問題

熵的值越高代表什麼？

熵在決策樹中如何應用？

交叉熵與熵有什麼關係？

熵 是什麼？

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

相關術語

相關術語

常見問題

熵的值越高代表什麼？

熵在決策樹中如何應用？

交叉熵與熵有什麼關係？

熵是什麼？