iPAS AI 應用規劃師初級　科目二　生成式 AI 應用與規劃

長對話要保持上下文一致，該用什麼模型架構？

原題 05

某企業導入生成式 AI 系統，希望自動產出客服回覆與內部文件摘要。系統需能理解使用者輸入的完整語句內容，並在回覆中維持語意連貫，即使對話內容較長仍能保持上下文一致性。基於上述需求，下列何種模型架構最為適合？

白話

企業要導入生成式 AI，用來自動產出客服回覆和內部文件摘要。系統有三個硬性需求：要能理解使用者的完整語句、回覆語意要連貫、即使對話很長也要維持上下文一致性。

問你：需要理解完整語句、語意連貫、長對話上下文一致，該選哪種模型架構？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

需要理解完整語句、維持長對話上下文一致的生成式 AI，基於 Transformer 的自迴歸模型（如 GPT 系列）是目前最合適的架構，因為它能同時看到全部上下文並逐字生成連貫的回覆。

02　情境

先感受問題：AI 客服為什麼會「失憶」？

假設你在「快速保險」公司導入 AI 客服系統，使用者跟 AI 的對話可能長達十幾輪：

使用者：「我的車險理賠申請了三週還沒處理。」
AI：「請提供您的申請單號。」
使用者：「是 AX-2024-00123。」
使用者：「對了，我的車是去年 10 月在台北停車場被刮傷的。」
使用者：「這個案件什麼時候會有進展？」

使用者最後問的問題，要聯繫到前面提到的申請單號和事故背景，AI 才能給出有意義的回答。如果 AI「忘記」了前幾輪說的內容，就會問「請問您在詢問哪個案件？」，讓使用者崩潰。

能同時記住整段對話並保持語意連貫，這是題目的核心需求。

03　對照

其他架構為什麼在長上下文上吃力？

「快速保險」的工程師評估了幾個架構選項，發現各有根本限制：

CNN（卷積神經網路）：本來是做圖片辨識的，處理文字時只看局部片段（滑動窗口），沒辦法理解「申請單號」和十輪後「什麼時候有進展」之間的關係
RNN（遞迴神經網路）：一個字一個字依序處理，理論上可以記住上文，但在實踐中有「長期記憶衰退」問題：對話一長，早期的訊息就被稀釋遺忘，而且無法平行計算，速度很慢
GAN（生成對抗網路）：由生成器和判別器對抗訓練，特別適合生成逼真的圖片或音頻，但不適合需要理解語意和回覆文字的對話系統
傳統統計模型（如 n-gram 語言模型）：只考慮前幾個詞，對話一長完全跟不上，更別說理解複雜的問句
純規則式客服系統：靠關鍵字比對，無法理解使用者的完整意圖，尤其是語意模糊或問句複雜時失效

每個舊方案都有「上下文理解能力有限」的根本問題。

04　解法

Transformer 自迴歸模型怎麼解

「快速保險」最終選用基於 Transformer 架構的自迴歸模型。這個架構解決了長上下文問題，關鍵在兩個設計：

注意力機制（Attention）：模型在生成每個字時，可以「回頭看」整個對話歷史，計算每個位置的重要程度。「什麼時候有進展」這句話要回答，模型會自動關注到之前提到的申請單號，因為它和「進展」最相關。

自迴歸生成（Autoregressive Generation）：每次生成一個 token，把這個 token 加回到上下文中，再生成下一個，確保整個回覆從頭到尾語意連貫。不會前半句說「您的申請」後半句突然跳到別的話題。

效果：AI 客服可以處理長達幾千個 token 的對話歷史，不會「忘記」使用者五輪前說的內容，回覆始終圍繞使用者的具體問題。

這就是選項 C 講的：基於 Transformer 架構的自迴歸模型，透過注意力機制理解完整語句，透過自迴歸生成維持回覆的語意連貫。

技術版：四種架構在文字生成上的能力對比

這四種架構代表了神經網路發展的不同階段，各有擅長領域。

架構特性對比：

CNN：卷積核掃描局部特徵，擅長圖像中的空間特徵提取，處理文字時只能捕捉局部 n-gram 特徵，無法建立長距離語意關係
RNN/LSTM：序列處理，有隱藏狀態傳遞記憶，但梯度消失問題導致長序列記憶衰退，且無法平行計算訓練慢
Transformer + 自迴歸（GPT 系列）：自注意力機制讓每個位置都能直接關注任何其他位置，支援平行訓練，處理長上下文能力強，是目前生成式 AI 的主流架構
GAN：生成器和判別器對抗訓練，適合連續資料（圖片、聲音）的生成，文字是離散 token，GAN 訓練不穩定，不適合文字生成

為什麼出題者要考這題：AI 應用規劃師必須能根據業務需求選擇合適的模型架構。長對話、語意理解、連貫生成是現代 AI 客服的核心需求，而 Transformer 自迴歸模型正是為此設計。了解各架構的適用邊界，才能做出正確的技術選型判斷。

05　陷阱

為什麼其他選項是錯的

A卷積神經網路（CNN）

字面在說什麼

用卷積核掃描輸入資料，擅長提取局部模式，最常見於圖像辨識任務。

為什麼不對

CNN 的卷積操作只看輸入的「局部片段」，無法建立文字之間的長距離語意關係。對話中「申請單號」和十輪後「什麼時候有進展」的關聯，CNN 根本無法捕捉。它更不適合生成連貫的文字回覆。

誰會選錯

只知道 CNN 是「強大的神經網路」、但不了解它擅長圖像而非文字語意理解的人。

B遞迴神經網路（RNN）

字面在說什麼

按序列一步一步處理輸入，每步都把上一步的「記憶」傳給下一步，理論上可以記住歷史。

為什麼不對

RNN 在處理長序列時面臨梯度消失問題，早期的上下文會隨著輸入長度增加而被「稀釋遺忘」。而且 RNN 必須按順序處理，不能平行計算，速度慢。對於需要保持長對話一致性的客服系統，RNN 是 Transformer 出現前的過渡方案，現已被取代。

誰會選錯

知道 RNN 是「處理序列資料的神經網路」、直覺認為「序列 = 對話」的人。但 RNN 的記憶能力在長對話上遠不如 Transformer。

D生成對抗網路（GAN）

字面在說什麼

由生成器和判別器兩個網路互相對抗訓練，生成器學會製造「以假亂真」的輸出，廣泛用於圖片生成。

為什麼不對

GAN 擅長生成連續資料（如圖片像素），但文字是離散的 token（每個詞是一個不連續的選項），GAN 在文字生成上訓練極不穩定，而且完全無法處理「理解對話上下文後再回覆」的需求。GAN 的設計邏輯是「以假亂真」，不是「理解後回答」。

誰會選錯

知道 GAN 是「生成式模型」、題目也在問「生成式 AI」，直覺覺得名字有「生成」就是答案的人。但「生成式 AI」這個術語是指能產生新內容的 AI，不是指 GAN 這個特定架構。

06　變形

同個考點下次怎麼變形

變形 1

Transformer 架構的核心創新是什麼？

直覺

Transformer 是比 RNN 更新的模型，應該只是改進版吧？

答案

Transformer 的核心創新是自注意力機制（Self-Attention）：每個位置的 token 可以直接關注序列中所有其他位置，不需要像 RNN 一樣一步一步傳遞記憶。這讓長距離語意關係的建立變得高效，也讓平行計算成為可能，大幅加快訓練速度。

變形 2

自迴歸生成（Autoregressive Generation）的意思是什麼？

直覺

模型一次生成所有文字？

答案

自迴歸是指每次生成一個 token，然後把它加入上下文，再生成下一個。「Auto（自）」指的是用自己生成的輸出作為下一步的輸入，「Regressive（迴歸）」指依賴過去的序列。這種機制確保生成的文字前後連貫，不會突然跳題。

變形 3

GAN 最適合用在哪類 AI 任務？

直覺

GAN 不就是「生成式 AI」嗎？什麼任務都可以用？

答案

GAN 最適合圖像、音訊等連續資料的生成，如人臉生成（DeepFake）、圖像風格轉換、音樂生成。它不適合文字生成（因為 token 是離散的），也不適合需要「理解輸入後回應」的對話場景。GAN 的強項是「生成真實感強的內容」，不是「理解語意並回答問題」。

變形 4

Context Window（上下文窗口）在 LLM 對話中代表什麼？

直覺

就是對話記錄的長度？

答案

Context Window 是模型能同時處理的最大 token 數量，包含對話歷史、系統提示、使用者輸入和模型回覆。窗口越大，模型能記住越長的對話歷史。超出窗口的內容會被截斷，模型就「忘記」那部分了。規劃長對話 AI 系統時，選擇支援足夠大 Context Window 的模型很重要。

變形 5

現代 LLM 客服和傳統規則式客服機器人最根本的差異是什麼？

直覺

LLM 比較聰明，規則式比較笨，就這樣而已？

答案

最根本的差異是對「意圖」的理解能力：規則式客服靠關鍵字匹配，同一個問題換個說法就失效；LLM 能理解語意，知道「我的包裹在哪」和「快遞什麼時候到」是同一個問題。LLM 還能處理多輪上下文，不需要使用者每次都重新說清楚背景。

07　延伸

想再往下看，這 5 個

轉換器架構（Transformer）以自注意力機制為核心的神經網路架構，是現代 LLM 的基礎，解決了 RNN 無法有效處理長序列的問題
自注意力（Self-Attention）讓序列每個位置直接關注所有其他位置的機制，使 Transformer 能捕捉長距離語意依賴
上下文窗口（Context Window）LLM 能同時處理的最大 token 數，決定長對話時能記住多少歷史，是維持上下文一致的關鍵參數
因果語言模型（Causal Language Model）只能看到左側歷史 token 並逐一預測下一個 token 的自迴歸架構，GPT 系列採用此設計
大型語言模型（Large Language Model）基於 Transformer 的大規模語言模型，是客服回覆生成與文件摘要等應用的核心技術