---
title: "熵（Entropy）"
slug: entropy
language: zh-TW
source: https://aiterms.tw/terms/entropy
updated_at: 2026-04-29
tags: [AI基礎, 數學基礎, 統計方法, 機器學習, 特徵工程, 模型評估, 資料處理]
ipas_term: false
---

# 熵（Entropy）

> **你有沒有玩過猜答案遊戲，越猜越覺得還有很多可能？**
> 你可以把熵想成不確定性的溫度，越亂、越難猜，熵就越高。
> 它其實就是資訊理論裡用來衡量隨機變數有多不確定的指標，也常拿來幫決策樹挑特徵和分裂點。
>
> 你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

### 容易混淆
> **熵 vs 機率**
> 機率是在說某件事會不會發生，熵是在說整體有多難猜。
>
> **熵 vs 交叉熵損失**
> 熵量化的是資料本身的不確定性，交叉熵損失量化的是模型預測和真實分佈差多少。
>
> **熵 vs 資訊增益**
> 熵看原始不確定性，資訊增益看用了某個特徵後，不確定性少了多少。
>
> **最關鍵的區別：** 熵是「亂不亂」，資訊增益是「切完之後有沒有變得更清楚」。

### 記住這句就好
> 越難猜，熵越高。

### 實際案例
> **案例一：天氣預報**
> 如果明天到底下不下雨只有兩種可能，而且機率差不多，熵就比「幾乎一定晴天」高，因為你更難猜。
>
> **案例二：決策樹切分**
> 用年齡、收入或地區去分客戶時，模型會挑能讓節點更純的特徵，因為熵下降代表分類更清楚。

### 算法與應用
> 二元熵常寫成 `H(X) = -p log p - (1-p) log(1-p)`，多類別則是把每個類別的機率都加進去。決策樹會找讓熵下降最多的切分點，因為那代表資料被切得更整齊。資訊壓縮、語言模型和困惑度分析，也常借用熵的概念來描述不確定性。

### 情境判斷
> **Q1（直覺題）：** 兩個班級，一個成績幾乎都集中在 80 分，另一個從 0 分到 100 分都很平均，哪個熵比較高？
>
> → 後者比較高，因為分布越平均、越難猜，熵就越高。
>
> **Q2（判斷題）：** 如果某個特徵的熵很低，是不是一定最適合拿來做分類？
>
> → 不一定，還要看它能不能把目標變數切開。熵低只代表這個特徵本身較集中，真正有沒有用要看資訊增益和任務目標。

### 常見問題
> **Q：熵的值越高代表什麼？**
> 代表不確定性越大，也就是結果越難預測。
>
> **Q：熵在決策樹中如何應用？**
> 決策樹會比較不同切分點的熵，挑能讓資料更純、資訊增益更大的分裂方式。
>
> **Q：交叉熵與熵有什麼關係？**
> 交叉熵可以看成是拿模型預測的分佈去量真實分佈的成本，熵則只看真實分佈本身有多亂。

### 相關術語
> - **資訊理論**：讀完這個再看它，可以把熵放回整個理論框架
> - **KL散度**：讀完這個再看它，可以看懂分佈之間的距離感
> - **交叉熵損失**：分類模型最常碰到的延伸概念
> - **機率分佈**：熵就是在量分佈的混亂程度
> - **困惑度**：語言模型常用來表達不確定性的相關指標

---

來源：https://aiterms.tw/terms/entropy
快查頁：https://aiterms.tw/terms/entropy
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-entropy