---
title: "困惑度（Perplexity）"
slug: perplexity
language: zh-TW
source: https://aiterms.tw/terms/perplexity
updated_at: 2026-04-29
tags: [自然語言處理, 模型評估, 大型語言模型, 模型訓練, 深度學習, 統計方法]
ipas_term: false
---

# 困惑度（Perplexity）

> **你看語言模型輸出的字越順，會不會也想知道它其實有多「不猶豫」？**
>
> 你可以把 困惑度 想成 看模型對下文有多不猶豫。
>
> 語言模型越會接續文字，困惑度通常越低，困惑度越低，模型越像真的懂語言 這件事就特別重要。
>
> 你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

### 容易混淆
> **困惑度 vs 準確率**
>
> 準確率像考試分數，衡量答對的比例；困惑度像模型對題目的「理解程度」，困惑度低表示它對內容掌握度高，預測也更自然流暢。
>
> 最關鍵的區別：一個看語言流暢度，一個是訓練時的損失。
>
>
> **困惑度 vs 交叉熵**
>
> 困惑度是從交叉熵轉出的指標，通常越低越好
>
> 最關鍵的區別：一個是可讀分數，一個是背後的損失。

### 記住這句就好
> 困惑度越低，模型越像真的懂語言

### 實際案例
> **案例 1：拿困惑度比較兩個語言模型，看看誰更會接下文**
>
> 這種情況下，困惑度 會幫你把原本手工或靠直覺的步驟變得更穩。
>
>
> **案例 2：訓練新模型時，用困惑度觀察是不是還在穩定下降**
>
> 另一個常見場景也能看出 困惑度 的價值，因為它處理的是同一種核心問題。

### 算法與應用
> 核心意思就是：困惑度越低，模型越像真的懂語言。
>
> 它常用來比較語言模型，而不是直接看分類正確率
>
> 值低不代表一定最適合產品，還要看實際任務和成本

### 情境判斷
> **Q1（直覺題）：** 拿困惑度比較兩個語言模型，看看誰更會接下文 這種情況，會先想到 困惑度 嗎？
>
> → 會，因為它正好在處理這件事的核心問題，只是還要看資料乾不乾淨、流程穩不穩。
>
>
> **Q2（判斷題）：** 困惑度低，就代表模型一定更好嗎？
>
> → 看情況，通常代表語言模型更會接續文字，但還要看任務目標和成本

### 常見問題
> **Q：困惑度越低越好嗎？**
> 通常情況下，困惑度越低表示模型性能越好，對文本的預測能力越強。
> 然而，過低的困惑度可能表示模型過度擬合了訓練數據，導致泛化能力下降。
> 因此，需要在降低困惑度的同時，注意模型的泛化能力。
>
> **Q：困惑度可以用於比較不同模型的優劣嗎？**
> 是的，困惑度可以用於比較不同模型的優劣，但前提是這些模型是在相同的數據集上進行評估的。
> 如果在不同的數據集上評估模型，則不能直接比較困惑度。
> 此外，還需要考慮其他因素，例如模型的計算複雜度和泛化能力。
>
> **Q：如何降低模型的困惑度？**
> 可以通過多種方法來降低模型的困惑度，例如：增加訓練數據量、使用更複雜的模型結構、調整模型的超參數、使用正則化技術、使用更好的優化算法等。
> 具體使用哪種方法取決於具體的問題和模型。

### 相關術語
> - **語言模型**：看完這個再讀它，會更容易把概念串起來
> - **困惑度**：看完這個再讀它，會更容易把概念串起來
> - **交叉熵損失**：看完這個再讀它，會更容易把概念串起來
> - **資訊理論**：看完這個再讀它，會更容易把概念串起來
> - **BLEU分數**：看完這個再讀它，會更容易把概念串起來

---

來源：https://aiterms.tw/terms/perplexity
快查頁：https://aiterms.tw/terms/perplexity
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-perplexity