ROUGE評分 是什麼?

ROUGE Score — ROUGE評分 的完整解釋

ROUGE評分是一種用於評估自動文本摘要或機器翻譯品質的指標,通過比較生成文本與參考文本的n-gram重疊程度來衡量。

容易混淆

ROUGE vs BLEU

ROUGE 看重內容覆蓋 BLEU 看重和參考答案的字詞相符度 最關鍵的區別是看漏沒漏重點,還是像不像標準答案。

ROUGE vs 準確率

ROUGE 是內容重疊評分 準確率是分類或判斷是否答對的指標 最關鍵的區別是文字生成評估還是分類評估。

記住這句就好

摘要有沒有漏重點,ROUGE 很適合先看。

實際案例

新聞摘要評測 兩個摘要模型都能把長文縮短,但只有 ROUGE 高的那個,通常真的把重要句子抓得比較完整。

醫療文件整理 當醫療摘要需要快速篩模型時,ROUGE 可以先當第一層自動評分。

算法與應用

ROUGE-1 看單字詞重疊,ROUGE-2 看二元詞組重疊,ROUGE-L 看最長公共子序列。 它偏向召回,意思是比較在意該講的內容有沒有被說到。 它不能取代人工評估,因為流暢度和事實正確性不在它的評分範圍。

情境判斷

Q1(直覺題):如果摘要模型 ROUGE 分數更高,通常代表什麼?

→ 通常代表它跟參考摘要的重疊更多,內容覆蓋比較完整。

Q2(判斷題):ROUGE 高就代表摘要一定好嗎?

→ 不一定。它不看語氣、流暢度和事實正確性,所以還要搭配人工判讀。

相關術語

常見問題

ROUGE-N 的 N 是什麼意思?

A:N 代表 n-gram 的長度,像 ROUGE-1 是單字詞,ROUGE-2 是兩個詞連在一起。

ROUGE-L 和 ROUGE-N 差在哪?

A:ROUGE-L 看整體序列相似度,ROUGE-N 看固定長度的詞組重疊。

ROUGE 適合用在哪些任務?

A:很適合摘要、翻譯和有參考答案的生成任務。