iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論

AI 生成摘要品質檢核,系統的核心目標是什麼?

原題 11

某企業導入生成式 AI(Generative AI)系統自動產出會議摘要,並規劃額外建置一套 AI 系統,用於評估摘要內容的正確性與完整性。下列何者為此 AI 系統的核心目標?

白話

一家企業已有一套生成式 AI 系統可以自動產出會議摘要。現在他們想再建立第二套 AI 系統,專門用來「評估」這些摘要有沒有寫對、有沒有遺漏重要內容。

問你:這個專門用來評估摘要正確性與完整性的 AI 系統,核心目標是什麼?

點選你的答案。

01 總結

一句話總結

評估摘要正確性和完整性的 AI 系統,核心目標是判斷摘要是否遺漏關鍵資訊或出現語意錯誤:前者對應完整性,後者對應正確性,兩者合在一起才是評估的完整任務。

02 情境

先感受問題:AI 摘要寫錯了,誰來把關?

假設你是「精準顧問」諮詢公司的 AI 系統規劃師。公司每天有 50 場客戶會議,每場會議後生成式 AI 自動產出一份摘要,節省了大量人力。

但主管發現了問題:「AI 摘要有時候會遺漏重要決策,有時候還會把 A 客戶說的話歸到 B 客戶名下,語意完全搞錯。如果摘要出了問題沒人發現,客戶會對我們失去信任。」

解法:再建置一套 AI 系統,專門來「審核」第一套 AI 的輸出。這套審核系統的核心問題是:「這份摘要有沒有把會議的重要內容都寫進去(完整性)?」以及「寫進去的東西有沒有跟實際說的一致(正確性)?」

這就是題目描述的 AI 評估系統要做的事,對應的正是選項 B:判斷遺漏(完整性問題)和語意錯誤(正確性問題)。

03 對照

沒有品質評估系統,AI 摘要錯了才知道

「精準顧問」在建置評估系統之前,摘要品質靠人工抽查,有幾個明顯的問題:

  1. 遺漏無從發現:摘要看起來流暢完整,但少了某個重要決策點,讀者不知道自己沒有讀到,因為他們不知道原本應該有什麼
  2. 語意錯誤容易忽略:AI 可能把「下週五前完成」誤寫成「下週三前完成」,或把 A 說的建議寫成 B 說的,語意錯誤在快速閱讀中不容易察覺
  3. 人工抽查覆蓋率低:50 場會議每天只能抽查幾場,漏檢率高
  4. 業務影響難以量化:摘要錯誤要等到客戶投訴或業務出問題才發現,發現的成本極高
  5. 品質標準不一致:不同審查員對「夠不夠完整」的標準不同,無法系統化改善
04 解法

評估系統怎麼判斷完整性和正確性

「精準顧問」建置的 AI 評估系統,核心任務是兩件事:

判斷完整性(是否遺漏關鍵資訊):系統比對會議逐字稿和 AI 摘要,識別出「這個決策點、這個行動項目、這個數字」是否有出現在摘要中。如果會議中提到「下季預算增加 20%」但摘要沒有,就是遺漏,系統會標記出來。

判斷正確性(是否出現語意錯誤):系統比對逐字稿和摘要中同一個事件的描述是否一致。如果逐字稿說「王總裁同意這個方案」,摘要卻寫「王總裁反對這個方案」,就是語意錯誤。

這個系統並不需要做「新增術語」「語音轉文字」「標註關鍵字」這些功能,它的唯一目標就是評估摘要品質:「遺漏了什麼」和「說錯了什麼」。

這就是選項 B 為什麼正確:判斷摘要是否遺漏關鍵資訊或出現語意錯誤,直接對應了「評估正確性與完整性」這個核心目標

技術版:AI 生成內容的評估技術在哪個領域

評估 AI 生成文字的正確性和完整性,屬於 NLP(自然語言處理)中的「文字摘要評估」和「事實核查(Fact-checking)」領域。

完整性評估(Coverage):比對原文和摘要,找出原文中的關鍵資訊點是否都出現在摘要中。常用指標:ROUGE 分數(比對 n-gram 的重疊比例)。但 ROUGE 只看詞彙匹配,不能理解語意。

正確性評估(Faithfulness / Factual Consistency):判斷摘要中的敘述是否與原文一致,或是否有「幻覺(Hallucination)」,即模型自己發明了原文中不存在的資訊。這是生成式 AI 最棘手的問題,業界稱為「AI 幻覺(AI Hallucination)」。

現代評估方法:使用另一個 LLM 作為評估器(LLM-as-judge),讓模型判斷摘要是否忠實於原文。這正是題目描述的「額外建置一套 AI 系統」的真實技術形態。

RAG(Retrieval-Augmented Generation)評估:在 RAG 架構中,評估生成內容的正確性尤其重要,因為模型必須忠實呈現檢索到的文件內容,不能自行發揮。正確性評估是 RAG 系統品質保障的核心機制。

為什麼出題者要考這題:AI 應用規劃師在設計生成式 AI 系統時,必須把品質評估機制納入整體架構。知道「評估系統的核心目標」才能正確設計評估指標和評估模組,避免讓錯誤的 AI 輸出直接到達最終用戶。

05 陷阱

為什麼其他選項是錯的

A自動新增專業名詞與技術指標

字面在說什麼

系統自動識別並補充摘要中缺少的行業術語和技術指標,讓摘要更專業完整。

為什麼不對

「新增」是在增加新內容,但評估系統的目的是「核查已有內容」是否正確,不是替摘要加料。而且自動新增術語可能把原本沒有提到的概念加進去,反而造成資訊失真,與「評估正確性」的目標背道而馳。

誰會選錯

把「讓摘要更完整」誤以為等於「評估完整性」的人。評估完整性是「找出遺漏」,不是「補充遺漏」。評估系統的輸出應該是「這裡有問題」的報告,不是自動修改摘要。

C調整語音轉文字結果

字面在說什麼

修正語音辨識的錯誤,讓逐字稿更準確,為後續的摘要生成提供更好的輸入。

為什麼不對

語音轉文字是「摘要生成之前」的步驟,不是「摘要生成之後」的評估步驟。題目明確說是「評估摘要內容的正確性與完整性」,這個系統的輸入是已經生成好的摘要,不是在處理語音辨識的問題。

誰會選錯

把會議 AI 的整個流程搞混,以為語音處理也是「摘要評估」一部分的人。流程順序:語音 → 逐字稿 → AI 摘要 → 評估摘要品質。評估系統在最後一步,不在第一步。

D自動標註摘要的關鍵字與主題標籤

字面在說什麼

識別摘要中的重要詞彙並加上標籤,方便後續搜尋和分類管理。

為什麼不對

標註關鍵字是「整理和索引」功能,不是「品質評估」功能。它不判斷摘要是否正確,只是把現有內容標記出來。就算摘要有語意錯誤,標註系統也只會把錯誤的內容標出來,不會指出它是錯的。

誰會選錯

以為「標出重要內容」等於「評估摘要品質」的人。標註是描述「摘要說了什麼」,評估是判斷「摘要說的對不對、完不完整」,兩者是完全不同的系統目標。

06 變形

同個考點下次怎麼變形

變形 1

「AI 幻覺(AI Hallucination)」是什麼?和本題有什麼關係?

直覺

AI 幻覺常被提到,跟摘要評估有什麼連結?

答案

AI 幻覺指生成式 AI 產出看似合理但與原始資料不符的資訊,例如摘要中出現了會議裡從未提到的人名或數字。這正是本題「語意錯誤」的一種形式。評估系統的核心任務之一,就是偵測這類幻覺,確保 AI 生成的內容忠實於原始資料(逐字稿)。

變形 2

RAG(Retrieval-Augmented Generation)系統中,為什麼需要評估「忠實度」?

直覺

RAG 系統不是會自動查資料嗎?還需要評估嗎?

答案

RAG 從知識庫檢索文件後,由 LLM 生成回答。但 LLM 可能在生成時夾雜了不在檢索文件中的自創資訊(幻覺),導致輸出不忠實於原始來源。評估「忠實度(Faithfulness)」就是判斷 LLM 的輸出是否完全基於檢索到的文件,是 RAG 品質評估的核心指標。

變形 3

ROUGE 分數是用來評估什麼的?

直覺

摘要評估有沒有數量化的指標?

答案

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)透過比較 AI 摘要和人工標準摘要的詞彙重疊比例,量化摘要品質。ROUGE-1 比較單詞重疊,ROUGE-2 比較二元組重疊,ROUGE-L 比較最長公共子序列。缺點是只看詞彙表面,不理解語意,對同義替換和語意改寫不敏感。

變形 4

「LLM-as-judge」是什麼意思?

直覺

用 AI 評估 AI,這合理嗎?

答案

LLM-as-judge 指用一個大型語言模型作為評估器,判斷另一個 AI 的輸出是否正確、完整、相關。相比 ROUGE 等詞彙指標,LLM 能理解語意,對於「說法不同但意思一樣」的情況判斷更準確。本題描述的「額外建置一套 AI 系統評估摘要」,就是這種架構的實際應用。

變形 5

評估摘要「完整性」和「正確性」,哪個更難解決?

直覺

這兩個問題有高下之分嗎?

答案

正確性(語意錯誤偵測)通常更難:需要理解原文語意,判斷摘要的描述是否與原文相符,還需要對「幻覺」(完全不存在的資訊)保持敏感。完整性(遺漏偵測)相對容易一些,可以用關鍵資訊點的覆蓋比例衡量。兩者都是生成式 AI 應用品質保障的核心挑戰。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 115 年第一次 iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論 第 11 題

查看官方原文 PDF