iPAS AI 應用規劃師初級　科目二　生成式 AI 應用與規劃

生成式 AI 客服回覆卡頓，該測什麼？

原題 04

某企業導入生成式 AI 客服系統後發現，系統整體運作穩定，且在單位時間內可處理大量對話請求。部分使用者仍反映在互動過程中回覆出現卡頓感，經初步排除網路連線與前端介面功能問題後，若專案團隊希望針對此現象進行效能測試，下列何者最符合測試重點？

白話

某企業導入生成式 AI 客服系統，系統整體運作穩定，單位時間內也能處理大量對話請求。但部分使用者反映，互動過程中回覆出現卡頓感。初步已排除網路連線和前端介面的問題。

問你：針對這個卡頓現象進行效能測試，最符合測試重點的是哪一項？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

使用者感受到「卡頓」是因為等待回覆的時間太長，要測的是單次互動的反應速度（延遲，Latency），而不是系統整體的吞吐量或穩定性。

02　情境

先感受問題：明明很快又很穩，為什麼感覺卡？

假設你在「美好家電」客服中心負責 AI 助理的效能監控。系統監控板上顯示一切正常：

系統穩定度：99.8%（幾乎沒有當機）
每分鐘處理對話數：1,200 則（吞吐量很高）
網路連線：正常
前端介面：沒問題

但客服主管拿著手機給你看：「你自己試試看，問它一個問題，從送出到開始看到回覆，要等 3 到 5 秒。使用者說感覺很慢、不流暢。」

你明白了：系統「整體」很快，但「單次」回覆的等待時間太長。使用者不在乎每分鐘處理 1,200 則，他在乎的是「我問了，多久看到答案」。

03　對照

測錯指標，問題永遠找不到

「美好家電」的工程師一開始測了一堆數據，但都不是關鍵：

測長時間穩定性：讓系統跑 48 小時，確認沒有崩潰，但使用者感受到的卡頓是在每次回覆的等待中，不是崩潰問題
測吞吐量（每秒請求數）：確認系統每秒能處理多少個對話，數字很漂亮，但這是「系統整體的效率」，不是「每個使用者等多久」
測回覆語言品質：確認 AI 的回答有沒有語法錯誤或語意不通，這是品質問題，跟速度無關
只看後端 CPU 使用率：CPU 不高，但忘了 LLM 推論的時間不只取決於 CPU，還取決於模型大小、token 生成速度
只看 API 回應碼：都是 200 OK，代表請求成功，但不代表快，成功和快是兩件事

每一個測試都有意義，但都沒有抓到使用者卡頓感的根源。

04　解法

測單次回覆的延遲，才能找到卡頓點

「美好家電」的工程師調整測試重點，直接測量使用者能感受到的那個時間：

測量指標：延遲（Latency）。從使用者送出問題，到看到第一個字出現（首字延遲，Time to First Token），以及到整個回覆完成的時間。

測試設計：模擬 100 個使用者同時提問，記錄每一次互動的回覆時間分佈。結果發現：95% 的回覆在 1 秒內開始，但有 5% 的回覆要等超過 4 秒。使用者反映的卡頓感，就是這個長尾延遲造成的。

找到根本原因：當模型被要求生成長回覆（超過 500 個 token）時，推論時間顯著變長。解法是設定合理的回覆長度限制，或改用更快的模型版本處理即時客服場景。

這就是選項 D 講的：分析單次互動回覆的反應速度表現，這才是卡頓感的直接量測方式。

技術版：生成式 AI 系統的效能維度

生成式 AI 系統的效能評估有多個維度，混淆這些維度是造成測試錯誤的主因。

四種效能維度：

延遲（Latency）：單次請求從發出到收到回覆的時間，直接影響使用者體驗。LLM 的延遲包含首字延遲（TTFT）和整體生成時間
吞吐量（Throughput）：單位時間內系統能處理的請求總數，影響系統承載上限
穩定性（Stability）：長時間運行下系統的可用率和崩潰頻率，影響服務連續性
品質（Quality）：回覆的語意準確性、語言流暢度，屬於內容評估，不是效能指標

為什麼吞吐量高但延遲高可以同時存在：吞吐量是批次處理能力，系統可以平行處理 1,000 個請求，但每個請求都要等 3 秒。這種情況下，吞吐量高、延遲也高，兩者不矛盾。

為什麼出題者要考這題：AI 應用規劃師在評估生成式 AI 系統時，必須能區分不同效能維度，針對問題症狀選對測試方法。「卡頓感」是使用者體驗問題，對應的測試指標是延遲，不是吞吐量或穩定性。

05　陷阱

為什麼其他選項是錯的

A評估系統長時間運作的穩定程度

字面在說什麼

讓系統跑很長一段時間，確認它不會崩潰、不會異常，測試系統的可靠性。

為什麼不對

題目明確說「系統整體運作穩定」，穩定性問題已確認不是現在的問題。繼續測穩定性是浪費資源，找不到使用者感受到的卡頓原因。

誰會選錯

看到「效能測試」就直覺選「壓力測試、穩定性測試」的人。但測試的選擇應根據症狀定向，不是選最常見的測試類型。

B測量系統單位時間的總處理量

字面在說什麼

測試系統每秒或每分鐘能處理多少個對話，確認系統的吞吐量。

為什麼不對

題目說系統「在單位時間內可處理大量對話請求」，吞吐量沒問題已確認。再測吞吐量是在確認一個已知沒問題的指標，對找出卡頓原因毫無幫助。

誰會選錯

把「處理量大 = 效能好」當成唯一效能標準的人。效能有多個維度，「能處理多少」和「等多久」是不同的問題。

C比較不同回覆內容的語言品質

字面在說什麼

評估 AI 生成的回覆語言是否流暢、語意是否準確、有沒有錯誤。

為什麼不對

語言品質是「回覆內容好不好」的問題，跟「回覆速度快不快」是完全不同的維度。使用者反映的是卡頓感（速度問題），不是說回答很奇怪（品質問題），測語言品質完全答非所問。

誰會選錯

把「效能測試」和「品質評估」混在一起的人。對於 AI 系統，品質（說得好不好）和效能（回得快不快）是兩個獨立評估維度。

06　變形

同個考點下次怎麼變形

變形 1

什麼是首字延遲（Time to First Token, TTFT）？為什麼它對 AI 客服體驗很重要？

直覺

等全部回覆出來的時間才是重點吧？

答案

TTFT 是從送出請求到看到第一個字出現的時間。生成式 AI 通常是「邊生成邊顯示」，使用者看到第一個字就感覺系統開始回應了，TTFT 短就能顯著降低卡頓感，即使整體生成時間較長也不那麼難受。

變形 2

延遲（Latency）高和吞吐量（Throughput）不足，哪個更難解決？

直覺

都是效能問題，解法應該差不多？

答案

兩者通常有取捨關係（trade-off）：增加批次大小可以提升吞吐量，但往往會增加延遲。生成式 AI 對延遲特別敏感，因為 token 是一個一個生成的，縮短延遲通常需要更快的 GPU 或更小的模型，比增加吞吐量更受硬體限制。

變形 3

生成式 AI 系統的效能測試應包含哪些場景？

直覺

正常使用就好，壓力測試不用吧？

答案

至少應測：單使用者低負載（基準延遲）、多使用者並發（壓力下的延遲與吞吐量）、長對話上下文（context 長度增加時的延遲變化）、長回覆生成（token 數多時的表現）。不同場景往往暴露不同瓶頸。

變形 4

改善生成式 AI 回覆延遲，有哪些常見策略？

直覺

只能換更貴的 GPU？

答案

除了升級硬體，還可以：使用更小的模型（如蒸餾模型）、限制最大輸出 token 數、採用串流輸出（讓使用者看到生成過程而非等全部完成）、加入快取（相似問題直接回傳快取答案）。規劃師應根據延遲瓶頸選擇最合適的策略。

變形 5

使用者體驗中的「可接受延遲」大概是多久？

直覺

只要不超過 10 秒應該都可以？

答案

一般對話介面中，使用者對首字延遲的容忍度約在 1 到 2 秒以內，超過就開始有卡頓感。整體生成時間可以長一些（因為使用者看到文字在持續出現），但首字延遲是決定「第一印象快不快」的關鍵指標。

07　延伸

想再往下看，這 5 個

即時推論（Real-time Inference）模型即時回應使用者請求的模式，延遲（Latency）是評估即時推論品質的核心指標
推論最佳化（Inference Optimization）透過量化、快取、批次推論等手段降低模型回應延遲，是解決 AI 客服卡頓的技術方向
生成式 AI（Generative AI）能生成文字、圖像等內容的 AI 系統，逐字生成的特性使延遲測試有別於傳統 API 效能測試
批次推論（Batch Inference）累積多個請求一次處理以提升吞吐量，與即時推論的低延遲需求相互取捨
推論（Inference）訓練完成的模型接受輸入並產出結果的過程，卡頓問題的根源在推論階段的時間消耗