---
title: "ROUGE評分（ROUGE Score）"
slug: rouge-score
language: zh-TW
source: https://aiterms.tw/terms/rouge-score
updated_at: 2026-04-29
tags: [自然語言處理, 模型評估, AI基礎]
ipas_term: false
---

# ROUGE評分（ROUGE Score）

> **你有沒有看過 AI 寫的摘要很順，但重點卻漏了一大半？**
>
> 你可以把 ROUGE 想成拿 AI 的摘要去對照標準答案，看它有沒有把該講的內容抓到。
>
> 它重要是因為摘要、翻譯和生成任務常需要一個自動化指標，來快速比較不同模型。
>
> 你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

### 容易混淆

> **ROUGE vs BLEU**
>
> ROUGE 看重內容覆蓋
> BLEU 看重和參考答案的字詞相符度
> 最關鍵的區別是看漏沒漏重點，還是像不像標準答案。
>
> **ROUGE vs 準確率**
>
> ROUGE 是內容重疊評分
> 準確率是分類或判斷是否答對的指標
> 最關鍵的區別是文字生成評估還是分類評估。
>

### 記住這句就好

> 摘要有沒有漏重點，ROUGE 很適合先看。

### 實際案例

> **新聞摘要評測**
> 兩個摘要模型都能把長文縮短，但只有 ROUGE 高的那個，通常真的把重要句子抓得比較完整。
>
> **醫療文件整理**
> 當醫療摘要需要快速篩模型時，ROUGE 可以先當第一層自動評分。
>

### 算法與應用

> ROUGE-1 看單字詞重疊，ROUGE-2 看二元詞組重疊，ROUGE-L 看最長公共子序列。
> 它偏向召回，意思是比較在意該講的內容有沒有被說到。
> 它不能取代人工評估，因為流暢度和事實正確性不在它的評分範圍。

### 情境判斷

> **Q1（直覺題）：如果摘要模型 ROUGE 分數更高，通常代表什麼？**
>
> → 通常代表它跟參考摘要的重疊更多，內容覆蓋比較完整。
>
> **Q2（判斷題）：ROUGE 高就代表摘要一定好嗎？**
>
> → 不一定。它不看語氣、流暢度和事實正確性，所以還要搭配人工判讀。
>

### 常見問題

> **Q：ROUGE-N 的 N 是什麼意思？**
> A：N 代表 n-gram 的長度，像 ROUGE-1 是單字詞，ROUGE-2 是兩個詞連在一起。
>
> **Q：ROUGE-L 和 ROUGE-N 差在哪？**
> A：ROUGE-L 看整體序列相似度，ROUGE-N 看固定長度的詞組重疊。
>
> **Q：ROUGE 適合用在哪些任務？**
> A：很適合摘要、翻譯和有參考答案的生成任務。
>

### 相關術語

> - **BLEU分數**：摘要和翻譯評估常拿它來對照 ROUGE。
> - **文本摘要**：ROUGE 最常用在摘要任務。
> - **提取式摘要技術**：ROUGE 很常搭配擷取式摘要一起看。
> - **摘要生成技術**：生成式摘要常會和 ROUGE 一起評估。
> - **基準測試**：ROUGE 常被放進基準測試裡比較模型。

---

來源：https://aiterms.tw/terms/rouge-score
快查頁：https://aiterms.tw/terms/rouge-score
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-rouge-score