iPAS AI 應用規劃師 初級 科目二 生成式 AI 應用與規劃

長對話要保持上下文一致,該用什麼模型架構?

原題 05

某企業導入生成式 AI 系統,希望自動產出客服回覆與內部文件摘要。系統需能理解使用者輸入的完整語句內容,並在回覆中維持語意連貫,即使對話內容較長仍能保持上下文一致性。基於上述需求,下列何種模型架構最為適合?

白話

企業要導入生成式 AI,用來自動產出客服回覆和內部文件摘要。系統有三個硬性需求:要能理解使用者的完整語句、回覆語意要連貫、即使對話很長也要維持上下文一致性。

問你:需要理解完整語句、語意連貫、長對話上下文一致,該選哪種模型架構?

點選你的答案。

01 總結

一句話總結

需要理解完整語句、維持長對話上下文一致的生成式 AI,基於 Transformer 的自迴歸模型(如 GPT 系列)是目前最合適的架構,因為它能同時看到全部上下文並逐字生成連貫的回覆。

02 情境

先感受問題:AI 客服為什麼會「失憶」?

假設你在「快速保險」公司導入 AI 客服系統,使用者跟 AI 的對話可能長達十幾輪:

  • 使用者:「我的車險理賠申請了三週還沒處理。」
  • AI:「請提供您的申請單號。」
  • 使用者:「是 AX-2024-00123。」
  • 使用者:「對了,我的車是去年 10 月在台北停車場被刮傷的。」
  • 使用者:「這個案件什麼時候會有進展?」

使用者最後問的問題,要聯繫到前面提到的申請單號和事故背景,AI 才能給出有意義的回答。如果 AI「忘記」了前幾輪說的內容,就會問「請問您在詢問哪個案件?」,讓使用者崩潰。

能同時記住整段對話並保持語意連貫,這是題目的核心需求。

03 對照

其他架構為什麼在長上下文上吃力?

「快速保險」的工程師評估了幾個架構選項,發現各有根本限制:

  1. CNN(卷積神經網路):本來是做圖片辨識的,處理文字時只看局部片段(滑動窗口),沒辦法理解「申請單號」和十輪後「什麼時候有進展」之間的關係
  2. RNN(遞迴神經網路):一個字一個字依序處理,理論上可以記住上文,但在實踐中有「長期記憶衰退」問題:對話一長,早期的訊息就被稀釋遺忘,而且無法平行計算,速度很慢
  3. GAN(生成對抗網路):由生成器和判別器對抗訓練,特別適合生成逼真的圖片或音頻,但不適合需要理解語意和回覆文字的對話系統
  4. 傳統統計模型(如 n-gram 語言模型):只考慮前幾個詞,對話一長完全跟不上,更別說理解複雜的問句
  5. 純規則式客服系統:靠關鍵字比對,無法理解使用者的完整意圖,尤其是語意模糊或問句複雜時失效

每個舊方案都有「上下文理解能力有限」的根本問題。

04 解法

Transformer 自迴歸模型怎麼解

「快速保險」最終選用基於 Transformer 架構的自迴歸模型。這個架構解決了長上下文問題,關鍵在兩個設計:

注意力機制(Attention):模型在生成每個字時,可以「回頭看」整個對話歷史,計算每個位置的重要程度。「什麼時候有進展」這句話要回答,模型會自動關注到之前提到的申請單號,因為它和「進展」最相關。

自迴歸生成(Autoregressive Generation):每次生成一個 token,把這個 token 加回到上下文中,再生成下一個,確保整個回覆從頭到尾語意連貫。不會前半句說「您的申請」後半句突然跳到別的話題。

效果:AI 客服可以處理長達幾千個 token 的對話歷史,不會「忘記」使用者五輪前說的內容,回覆始終圍繞使用者的具體問題。

這就是選項 C 講的:基於 Transformer 架構的自迴歸模型,透過注意力機制理解完整語句,透過自迴歸生成維持回覆的語意連貫

技術版:四種架構在文字生成上的能力對比

這四種架構代表了神經網路發展的不同階段,各有擅長領域。

架構特性對比:

  • CNN:卷積核掃描局部特徵,擅長圖像中的空間特徵提取,處理文字時只能捕捉局部 n-gram 特徵,無法建立長距離語意關係
  • RNN/LSTM:序列處理,有隱藏狀態傳遞記憶,但梯度消失問題導致長序列記憶衰退,且無法平行計算訓練慢
  • Transformer + 自迴歸(GPT 系列):自注意力機制讓每個位置都能直接關注任何其他位置,支援平行訓練,處理長上下文能力強,是目前生成式 AI 的主流架構
  • GAN:生成器和判別器對抗訓練,適合連續資料(圖片、聲音)的生成,文字是離散 token,GAN 訓練不穩定,不適合文字生成

為什麼出題者要考這題:AI 應用規劃師必須能根據業務需求選擇合適的模型架構。長對話、語意理解、連貫生成是現代 AI 客服的核心需求,而 Transformer 自迴歸模型正是為此設計。了解各架構的適用邊界,才能做出正確的技術選型判斷。

05 陷阱

為什麼其他選項是錯的

A卷積神經網路(CNN)

字面在說什麼

用卷積核掃描輸入資料,擅長提取局部模式,最常見於圖像辨識任務。

為什麼不對

CNN 的卷積操作只看輸入的「局部片段」,無法建立文字之間的長距離語意關係。對話中「申請單號」和十輪後「什麼時候有進展」的關聯,CNN 根本無法捕捉。它更不適合生成連貫的文字回覆。

誰會選錯

只知道 CNN 是「強大的神經網路」、但不了解它擅長圖像而非文字語意理解的人。

B遞迴神經網路(RNN)

字面在說什麼

按序列一步一步處理輸入,每步都把上一步的「記憶」傳給下一步,理論上可以記住歷史。

為什麼不對

RNN 在處理長序列時面臨梯度消失問題,早期的上下文會隨著輸入長度增加而被「稀釋遺忘」。而且 RNN 必須按順序處理,不能平行計算,速度慢。對於需要保持長對話一致性的客服系統,RNN 是 Transformer 出現前的過渡方案,現已被取代。

誰會選錯

知道 RNN 是「處理序列資料的神經網路」、直覺認為「序列 = 對話」的人。但 RNN 的記憶能力在長對話上遠不如 Transformer。

D生成對抗網路(GAN)

字面在說什麼

由生成器和判別器兩個網路互相對抗訓練,生成器學會製造「以假亂真」的輸出,廣泛用於圖片生成。

為什麼不對

GAN 擅長生成連續資料(如圖片像素),但文字是離散的 token(每個詞是一個不連續的選項),GAN 在文字生成上訓練極不穩定,而且完全無法處理「理解對話上下文後再回覆」的需求。GAN 的設計邏輯是「以假亂真」,不是「理解後回答」。

誰會選錯

知道 GAN 是「生成式模型」、題目也在問「生成式 AI」,直覺覺得名字有「生成」就是答案的人。但「生成式 AI」這個術語是指能產生新內容的 AI,不是指 GAN 這個特定架構。

06 變形

同個考點下次怎麼變形

變形 1

Transformer 架構的核心創新是什麼?

直覺

Transformer 是比 RNN 更新的模型,應該只是改進版吧?

答案

Transformer 的核心創新是自注意力機制(Self-Attention):每個位置的 token 可以直接關注序列中所有其他位置,不需要像 RNN 一樣一步一步傳遞記憶。這讓長距離語意關係的建立變得高效,也讓平行計算成為可能,大幅加快訓練速度。

變形 2

自迴歸生成(Autoregressive Generation)的意思是什麼?

直覺

模型一次生成所有文字?

答案

自迴歸是指每次生成一個 token,然後把它加入上下文,再生成下一個。「Auto(自)」指的是用自己生成的輸出作為下一步的輸入,「Regressive(迴歸)」指依賴過去的序列。這種機制確保生成的文字前後連貫,不會突然跳題。

變形 3

GAN 最適合用在哪類 AI 任務?

直覺

GAN 不就是「生成式 AI」嗎?什麼任務都可以用?

答案

GAN 最適合圖像、音訊等連續資料的生成,如人臉生成(DeepFake)、圖像風格轉換、音樂生成。它不適合文字生成(因為 token 是離散的),也不適合需要「理解輸入後回應」的對話場景。GAN 的強項是「生成真實感強的內容」,不是「理解語意並回答問題」。

變形 4

Context Window(上下文窗口)在 LLM 對話中代表什麼?

直覺

就是對話記錄的長度?

答案

Context Window 是模型能同時處理的最大 token 數量,包含對話歷史、系統提示、使用者輸入和模型回覆。窗口越大,模型能記住越長的對話歷史。超出窗口的內容會被截斷,模型就「忘記」那部分了。規劃長對話 AI 系統時,選擇支援足夠大 Context Window 的模型很重要。

變形 5

現代 LLM 客服和傳統規則式客服機器人最根本的差異是什麼?

直覺

LLM 比較聰明,規則式比較笨,就這樣而已?

答案

最根本的差異是對「意圖」的理解能力:規則式客服靠關鍵字匹配,同一個問題換個說法就失效;LLM 能理解語意,知道「我的包裹在哪」和「快遞什麼時候到」是同一個問題。LLM 還能處理多輪上下文,不需要使用者每次都重新說清楚背景。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 115 年第一次 iPAS AI 應用規劃師 初級 科目二 生成式 AI 應用與規劃 第 5 題

查看官方原文 PDF