---
title: "BLEU分數（BLEU Score）"
slug: bleu-score
language: zh-TW
source: https://aiterms.tw/terms/bleu-score
updated_at: 2026-04-29
tags: [自然語言處理, 模型評估, 深度學習, AI應用]
ipas_term: false
---

# BLEU分數（BLEU Score）

> **你在比較兩個翻譯系統誰比較像參考答案時，你會怎麼判斷它真正的作用？**
>
> 你可以把它想成 BLEU分數是一種評估機器翻譯文本品質的指標，通過比較候選譯文與參考譯文的n-gram重疊程度來計算，數值越高表示翻譯品質越好。
>
> 在 你在比較兩個翻譯系統誰比較像參考答案時 這種情境裡，這個概念會直接影響你怎麼設計、怎麼評估、怎麼上線。

### 容易混淆
> **BLEU vs ROUGE**
> BLEU 重點看翻譯的精準重疊，ROUGE 常拿來看摘要的召回覆蓋。
>
> **BLEU vs 人工評估**
> BLEU 很快，但人工評估更能看自然度、語氣和文化感。
>
> **BLEU vs perplexity**
> BLEU 看輸出和參考答案重疊多少，perplexity 看模型對語料的預測難度。

### 記住這句就好
> 先看它要解決的是什麼問題，再看它是不是最合適的方法。

### 實際案例
> **案例 1：翻譯回歸測試**
> 系統升版後 BLEU 掉分，團隊就知道可能有詞序或詞彙對應問題。
>
> **案例 2：多模型比較**
> 兩個翻譯系統都看起來順，但 BLEU 先幫你做一個快速量化比較。

### 深入了解
> | 面向 | 重點 |
> |---|---|
> | 核心 | 用 n-gram 重疊衡量候選譯文和參考譯文的相似度。 |
> | 限制 | 太依賴參考答案，對同義改寫和自然表達不夠友善。 |
> | 補充 | 實務上常搭配人工評估一起看。 |

### 情境判斷
> **Q1（判斷題）：** 一個譯文很自然但 BLEU 不高，這代表什麼？
> → 可能代表它和參考譯文寫法不同，但不一定真的差。
>
> **Q2（判斷題）：** 短句的 BLEU 很容易飄，這時該怎麼想？
> → 要更小心解讀，因為短句的 n-gram 太少，分數變動會很大。

### 常見問題
> **Q：BLEU 分數高就代表翻譯一定好嗎？**
> 不一定，它只能代表和參考答案的重疊高，不保證自然度和忠實度都好。
>
> **Q：BLEU 適合拿來評估摘要嗎？**
> 不太適合，摘要更常看 ROUGE 或人工評估。
>
> **Q：怎麼提升 BLEU？**
> 可以增加資料、改善模型、調整解碼策略，但也要避免只追分數不追品質。

### 相關術語
> - **機器翻譯**：先讀這個，能幫你把主題放進更大的脈絡裡。
> - **自然語言處理**：先讀這個，能幫你把主題放進更大的脈絡裡。
> - **ROUGE評分**：先讀這個，能幫你把主題放進更大的脈絡裡。
> - **困惑度**：先讀這個，能幫你把主題放進更大的脈絡裡。
> - **基準測試**：先讀這個，能幫你把主題放進更大的脈絡裡。

---

來源：https://aiterms.tw/terms/bleu-score
快查頁：https://aiterms.tw/terms/bleu-score
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-bleu-score