ROUGE評分是什麼？

ROUGE Score — ROUGE評分的完整解釋

ROUGE評分是一種用於評估自動文本摘要或機器翻譯品質的指標，通過比較生成文本與參考文本的n-gram重疊程度來衡量。

ROUGE vs BLEU

ROUGE 看重內容覆蓋 BLEU 看重和參考答案的字詞相符度最關鍵的區別是看漏沒漏重點，還是像不像標準答案。

ROUGE vs 準確率

ROUGE 是內容重疊評分準確率是分類或判斷是否答對的指標最關鍵的區別是文字生成評估還是分類評估。

摘要有沒有漏重點，ROUGE 很適合先看。

新聞摘要評測 兩個摘要模型都能把長文縮短，但只有 ROUGE 高的那個，通常真的把重要句子抓得比較完整。

醫療文件整理 當醫療摘要需要快速篩模型時，ROUGE 可以先當第一層自動評分。

ROUGE-1 看單字詞重疊，ROUGE-2 看二元詞組重疊，ROUGE-L 看最長公共子序列。它偏向召回，意思是比較在意該講的內容有沒有被說到。它不能取代人工評估，因為流暢度和事實正確性不在它的評分範圍。

Q1（直覺題）：如果摘要模型 ROUGE 分數更高，通常代表什麼？

→ 通常代表它跟參考摘要的重疊更多，內容覆蓋比較完整。

Q2（判斷題）：ROUGE 高就代表摘要一定好嗎？

→ 不一定。它不看語氣、流暢度和事實正確性，所以還要搭配人工判讀。

常見問題

A：N 代表 n-gram 的長度，像 ROUGE-1 是單字詞，ROUGE-2 是兩個詞連在一起。

A：ROUGE-L 看整體序列相似度，ROUGE-N 看固定長度的詞組重疊。

A：很適合摘要、翻譯和有參考答案的生成任務。