BLEU分數 是什麼?

BLEU Score — BLEU分數 的完整解釋

BLEU分數是一種評估機器翻譯文本品質的指標,通過比較候選譯文與參考譯文的n-gram重疊程度來計算,數值越高表示翻譯品質越好。

容易混淆

BLEU vs ROUGE BLEU 重點看翻譯的精準重疊,ROUGE 常拿來看摘要的召回覆蓋。

BLEU vs 人工評估 BLEU 很快,但人工評估更能看自然度、語氣和文化感。

BLEU vs perplexity BLEU 看輸出和參考答案重疊多少,perplexity 看模型對語料的預測難度。

記住這句就好

先看它要解決的是什麼問題,再看它是不是最合適的方法。

實際案例

案例 1:翻譯回歸測試 系統升版後 BLEU 掉分,團隊就知道可能有詞序或詞彙對應問題。

案例 2:多模型比較 兩個翻譯系統都看起來順,但 BLEU 先幫你做一個快速量化比較。

深入了解

面向 重點
核心 用 n-gram 重疊衡量候選譯文和參考譯文的相似度。
限制 太依賴參考答案,對同義改寫和自然表達不夠友善。
補充 實務上常搭配人工評估一起看。

情境判斷

Q1(判斷題): 一個譯文很自然但 BLEU 不高,這代表什麼? → 可能代表它和參考譯文寫法不同,但不一定真的差。

Q2(判斷題): 短句的 BLEU 很容易飄,這時該怎麼想? → 要更小心解讀,因為短句的 n-gram 太少,分數變動會很大。

相關術語

常見問題

BLEU 分數高就代表翻譯一定好嗎?

不一定,它只能代表和參考答案的重疊高,不保證自然度和忠實度都好。

BLEU 適合拿來評估摘要嗎?

不太適合,摘要更常看 ROUGE 或人工評估。

怎麼提升 BLEU?

可以增加資料、改善模型、調整解碼策略,但也要避免只追分數不追品質。