BLEU分數 是什麼?
BLEU Score — BLEU分數 的完整解釋
BLEU分數是一種評估機器翻譯文本品質的指標,通過比較候選譯文與參考譯文的n-gram重疊程度來計算,數值越高表示翻譯品質越好。
容易混淆
BLEU vs ROUGE BLEU 重點看翻譯的精準重疊,ROUGE 常拿來看摘要的召回覆蓋。
BLEU vs 人工評估 BLEU 很快,但人工評估更能看自然度、語氣和文化感。
BLEU vs perplexity BLEU 看輸出和參考答案重疊多少,perplexity 看模型對語料的預測難度。
記住這句就好
先看它要解決的是什麼問題,再看它是不是最合適的方法。
實際案例
案例 1:翻譯回歸測試 系統升版後 BLEU 掉分,團隊就知道可能有詞序或詞彙對應問題。
案例 2:多模型比較 兩個翻譯系統都看起來順,但 BLEU 先幫你做一個快速量化比較。
深入了解
面向 重點 核心 用 n-gram 重疊衡量候選譯文和參考譯文的相似度。 限制 太依賴參考答案,對同義改寫和自然表達不夠友善。 補充 實務上常搭配人工評估一起看。
情境判斷
Q1(判斷題): 一個譯文很自然但 BLEU 不高,這代表什麼? → 可能代表它和參考譯文寫法不同,但不一定真的差。
Q2(判斷題): 短句的 BLEU 很容易飄,這時該怎麼想? → 要更小心解讀,因為短句的 n-gram 太少,分數變動會很大。
相關術語
常見問題
BLEU 分數高就代表翻譯一定好嗎?
不一定,它只能代表和參考答案的重疊高,不保證自然度和忠實度都好。
BLEU 適合拿來評估摘要嗎?
不太適合,摘要更常看 ROUGE 或人工評估。
怎麼提升 BLEU?
可以增加資料、改善模型、調整解碼策略,但也要避免只追分數不追品質。