iPAS AI 應用規劃師初級　科目一　人工智慧基礎概論

AI 生成摘要品質檢核，系統的核心目標是什麼？

原題 11

某企業導入生成式 AI（Generative AI）系統自動產出會議摘要，並規劃額外建置一套 AI 系統，用於評估摘要內容的正確性與完整性。下列何者為此 AI 系統的核心目標？

白話

一家企業已有一套生成式 AI 系統可以自動產出會議摘要。現在他們想再建立第二套 AI 系統，專門用來「評估」這些摘要有沒有寫對、有沒有遺漏重要內容。

問你：這個專門用來評估摘要正確性與完整性的 AI 系統，核心目標是什麼？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

評估摘要正確性和完整性的 AI 系統，核心目標是判斷摘要是否遺漏關鍵資訊或出現語意錯誤：前者對應完整性，後者對應正確性，兩者合在一起才是評估的完整任務。

02　情境

先感受問題：AI 摘要寫錯了，誰來把關？

假設你是「精準顧問」諮詢公司的 AI 系統規劃師。公司每天有 50 場客戶會議，每場會議後生成式 AI 自動產出一份摘要，節省了大量人力。

但主管發現了問題：「AI 摘要有時候會遺漏重要決策，有時候還會把 A 客戶說的話歸到 B 客戶名下，語意完全搞錯。如果摘要出了問題沒人發現，客戶會對我們失去信任。」

解法：再建置一套 AI 系統，專門來「審核」第一套 AI 的輸出。這套審核系統的核心問題是：「這份摘要有沒有把會議的重要內容都寫進去（完整性）？」以及「寫進去的東西有沒有跟實際說的一致（正確性）？」

這就是題目描述的 AI 評估系統要做的事，對應的正是選項 B：判斷遺漏（完整性問題）和語意錯誤（正確性問題）。

03　對照

沒有品質評估系統，AI 摘要錯了才知道

「精準顧問」在建置評估系統之前，摘要品質靠人工抽查，有幾個明顯的問題：

遺漏無從發現：摘要看起來流暢完整，但少了某個重要決策點，讀者不知道自己沒有讀到，因為他們不知道原本應該有什麼
語意錯誤容易忽略：AI 可能把「下週五前完成」誤寫成「下週三前完成」，或把 A 說的建議寫成 B 說的，語意錯誤在快速閱讀中不容易察覺
人工抽查覆蓋率低：50 場會議每天只能抽查幾場，漏檢率高
業務影響難以量化：摘要錯誤要等到客戶投訴或業務出問題才發現，發現的成本極高
品質標準不一致：不同審查員對「夠不夠完整」的標準不同，無法系統化改善

04　解法

評估系統怎麼判斷完整性和正確性

「精準顧問」建置的 AI 評估系統，核心任務是兩件事：

判斷完整性（是否遺漏關鍵資訊）：系統比對會議逐字稿和 AI 摘要，識別出「這個決策點、這個行動項目、這個數字」是否有出現在摘要中。如果會議中提到「下季預算增加 20%」但摘要沒有，就是遺漏，系統會標記出來。

判斷正確性（是否出現語意錯誤）：系統比對逐字稿和摘要中同一個事件的描述是否一致。如果逐字稿說「王總裁同意這個方案」，摘要卻寫「王總裁反對這個方案」，就是語意錯誤。

這個系統並不需要做「新增術語」「語音轉文字」「標註關鍵字」這些功能，它的唯一目標就是評估摘要品質：「遺漏了什麼」和「說錯了什麼」。

這就是選項 B 為什麼正確：判斷摘要是否遺漏關鍵資訊或出現語意錯誤，直接對應了「評估正確性與完整性」這個核心目標。

技術版：AI 生成內容的評估技術在哪個領域

評估 AI 生成文字的正確性和完整性，屬於 NLP（自然語言處理）中的「文字摘要評估」和「事實核查（Fact-checking）」領域。

完整性評估（Coverage）：比對原文和摘要，找出原文中的關鍵資訊點是否都出現在摘要中。常用指標：ROUGE 分數（比對 n-gram 的重疊比例）。但 ROUGE 只看詞彙匹配，不能理解語意。

正確性評估（Faithfulness / Factual Consistency）：判斷摘要中的敘述是否與原文一致，或是否有「幻覺（Hallucination）」，即模型自己發明了原文中不存在的資訊。這是生成式 AI 最棘手的問題，業界稱為「AI 幻覺（AI Hallucination）」。

現代評估方法：使用另一個 LLM 作為評估器（LLM-as-judge），讓模型判斷摘要是否忠實於原文。這正是題目描述的「額外建置一套 AI 系統」的真實技術形態。

RAG（Retrieval-Augmented Generation）評估：在 RAG 架構中，評估生成內容的正確性尤其重要，因為模型必須忠實呈現檢索到的文件內容，不能自行發揮。正確性評估是 RAG 系統品質保障的核心機制。

為什麼出題者要考這題：AI 應用規劃師在設計生成式 AI 系統時，必須把品質評估機制納入整體架構。知道「評估系統的核心目標」才能正確設計評估指標和評估模組，避免讓錯誤的 AI 輸出直接到達最終用戶。

05　陷阱

為什麼其他選項是錯的

A自動新增專業名詞與技術指標

字面在說什麼

系統自動識別並補充摘要中缺少的行業術語和技術指標，讓摘要更專業完整。

為什麼不對

「新增」是在增加新內容，但評估系統的目的是「核查已有內容」是否正確，不是替摘要加料。而且自動新增術語可能把原本沒有提到的概念加進去，反而造成資訊失真，與「評估正確性」的目標背道而馳。

誰會選錯

把「讓摘要更完整」誤以為等於「評估完整性」的人。評估完整性是「找出遺漏」，不是「補充遺漏」。評估系統的輸出應該是「這裡有問題」的報告，不是自動修改摘要。

C調整語音轉文字結果

字面在說什麼

修正語音辨識的錯誤，讓逐字稿更準確，為後續的摘要生成提供更好的輸入。

為什麼不對

語音轉文字是「摘要生成之前」的步驟，不是「摘要生成之後」的評估步驟。題目明確說是「評估摘要內容的正確性與完整性」，這個系統的輸入是已經生成好的摘要，不是在處理語音辨識的問題。

誰會選錯

把會議 AI 的整個流程搞混，以為語音處理也是「摘要評估」一部分的人。流程順序：語音 → 逐字稿 → AI 摘要 → 評估摘要品質。評估系統在最後一步，不在第一步。

D自動標註摘要的關鍵字與主題標籤

字面在說什麼

識別摘要中的重要詞彙並加上標籤，方便後續搜尋和分類管理。

為什麼不對

標註關鍵字是「整理和索引」功能，不是「品質評估」功能。它不判斷摘要是否正確，只是把現有內容標記出來。就算摘要有語意錯誤，標註系統也只會把錯誤的內容標出來，不會指出它是錯的。

文本摘要（Text Summarization）本題情境的核心任務，自動將會議內容壓縮成摘要，正確性與完整性是評估品質的兩大維度
AI 幻覺（Hallucination）生成式 AI 產出看似合理但不符事實的內容，評估系統的核心任務之一就是偵測並標記幻覺
ROUGE評分（ROUGE Score）自動摘要評估的常用指標，比較 AI 摘要與標準摘要的詞彙重疊程度，衡量完整性但無法偵測語意錯誤
檢索增強生成（Retrieval-Augmented Generation）結合檢索與生成的架構，同樣需要配套品質評估機制來確認生成內容的忠實度
自然語言處理（Natural Language Processing）摘要生成與品質評估的技術基礎，涵蓋語意理解、關鍵資訊抽取等核心能力