你有沒有看過 AI 寫的摘要很順,但重點卻漏了一大半?
你可以把 ROUGE 想成拿 AI 的摘要去對照標準答案,看它有沒有把該講的內容抓到。
它重要是因為摘要、翻譯和生成任務常需要一個自動化指標,來快速比較不同模型。
你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。
容易混淆
ROUGE vs BLEU
ROUGE 看重內容覆蓋 BLEU 看重和參考答案的字詞相符度 最關鍵的區別是看漏沒漏重點,還是像不像標準答案。
ROUGE vs 準確率
ROUGE 是內容重疊評分 準確率是分類或判斷是否答對的指標 最關鍵的區別是文字生成評估還是分類評估。
記住這句就好
摘要有沒有漏重點,ROUGE 很適合先看。
實際案例
新聞摘要評測 兩個摘要模型都能把長文縮短,但只有 ROUGE 高的那個,通常真的把重要句子抓得比較完整。
醫療文件整理 當醫療摘要需要快速篩模型時,ROUGE 可以先當第一層自動評分。
算法與應用
ROUGE-1 看單字詞重疊,ROUGE-2 看二元詞組重疊,ROUGE-L 看最長公共子序列。 它偏向召回,意思是比較在意該講的內容有沒有被說到。 它不能取代人工評估,因為流暢度和事實正確性不在它的評分範圍。
情境判斷
Q1(直覺題): 如果摘要模型 ROUGE 分數更高,通常代表什麼?
Q2(判斷題): ROUGE 高就代表摘要一定好嗎?
常見問題
ROUGE-N 的 N 是什麼意思?
A:N 代表 n-gram 的長度,像 ROUGE-1 是單字詞,ROUGE-2 是兩個詞連在一起。
ROUGE-L 和 ROUGE-N 差在哪?
A:ROUGE-L 看整體序列相似度,ROUGE-N 看固定長度的詞組重疊。
ROUGE 適合用在哪些任務?
A:很適合摘要、翻譯和有參考答案的生成任務。