ROUGE評分 是什麼?
ROUGE Score — ROUGE評分 的完整解釋
ROUGE評分是一種用於評估自動文本摘要或機器翻譯品質的指標,通過比較生成文本與參考文本的n-gram重疊程度來衡量。
容易混淆
ROUGE vs BLEU
ROUGE 看重內容覆蓋 BLEU 看重和參考答案的字詞相符度 最關鍵的區別是看漏沒漏重點,還是像不像標準答案。
ROUGE vs 準確率
ROUGE 是內容重疊評分 準確率是分類或判斷是否答對的指標 最關鍵的區別是文字生成評估還是分類評估。
記住這句就好
摘要有沒有漏重點,ROUGE 很適合先看。
實際案例
新聞摘要評測 兩個摘要模型都能把長文縮短,但只有 ROUGE 高的那個,通常真的把重要句子抓得比較完整。
醫療文件整理 當醫療摘要需要快速篩模型時,ROUGE 可以先當第一層自動評分。
算法與應用
ROUGE-1 看單字詞重疊,ROUGE-2 看二元詞組重疊,ROUGE-L 看最長公共子序列。 它偏向召回,意思是比較在意該講的內容有沒有被說到。 它不能取代人工評估,因為流暢度和事實正確性不在它的評分範圍。
情境判斷
Q1(直覺題):如果摘要模型 ROUGE 分數更高,通常代表什麼?
→ 通常代表它跟參考摘要的重疊更多,內容覆蓋比較完整。
Q2(判斷題):ROUGE 高就代表摘要一定好嗎?
→ 不一定。它不看語氣、流暢度和事實正確性,所以還要搭配人工判讀。
相關術語
常見問題
ROUGE-N 的 N 是什麼意思?
A:N 代表 n-gram 的長度,像 ROUGE-1 是單字詞,ROUGE-2 是兩個詞連在一起。
ROUGE-L 和 ROUGE-N 差在哪?
A:ROUGE-L 看整體序列相似度,ROUGE-N 看固定長度的詞組重疊。
ROUGE 適合用在哪些任務?
A:很適合摘要、翻譯和有參考答案的生成任務。