提取式摘要技術 是什麼?

Extractive Summarization — 提取式摘要技術 的完整解釋

提取式摘要技術從原文中選擇重要句子組成摘要,簡單直接,易於實現,但可能缺乏連貫性,且無法進行語義概括。

容易混淆

提取式摘要 vs 摘要生成技術 提取式摘要直接挑原文句子。 摘要生成技術會用自己的話重寫內容。 最關鍵的區別:剪句子,還是重寫句子。

提取式摘要 vs ROUGE 提取式摘要是方法。 ROUGE 是常用來評估摘要品質的指標。 最關鍵的區別:一個是做法,一個是評分。

提取式摘要 vs 關鍵字擷取 關鍵字擷取只抓詞。 提取式摘要抓的是完整句子。 最關鍵的區別:抓詞,還是抓句。

記住這句就好

原文句子挑得好,就是提取式摘要。

實際案例

會議紀錄整理 先把冗長會議記錄壓縮成幾句重點,方便大家回看。 Before:整篇逐字稿太難掃。After:挑出決策、待辦和風險句。

新聞快覽 編輯要在很短時間內先抓新聞重點。 Before:只能整篇看完。After:用提取式摘要快速縮短閱讀時間。

算法與應用

常見做法是先為每個句子打分,再依分數挑出最重要的句子。

打分方式可以用 TF-IDF、位置特徵、圖排序或機器學習模型。

它的優點是保留原意,缺點是句子之間未必連貫,還可能重複。

情境判斷

Q1(直覺題): 提取式摘要和摘要生成技術最大的不同是什麼?

→ 提取式是選原文句子,生成式是用自己的話重寫,所以流暢度和風險都不一樣。

Q2(判斷題): 如果你要處理法規或合約,通常比較偏向哪一種摘要?

→ 看情況,但常會偏向提取式,因為它較能保留原文措辭,避免改寫造成法律風險。

相關術語

常見問題

提取式摘要的優缺點是什麼?

優點是簡單、穩定、容易保留原文,缺點是可能不連貫,也不會真正改寫語意。

TF-IDF 怎麼幫助摘要?

它可以幫忙看哪些詞比較重要,進而推高包含這些詞的句子分數。

要怎麼改進摘要品質?

可以加句子排序、語意模型或領域知識,讓選句更準。