iPAS AI 應用規劃師 初級 科目二 生成式 AI 應用與規劃

生成式 AI 客服回覆卡頓,該測什麼?

原題 04

某企業導入生成式 AI 客服系統後發現,系統整體運作穩定,且在單位時間內可處理大量對話請求。部分使用者仍反映在互動過程中回覆出現卡頓感,經初步排除網路連線與前端介面功能問題後,若專案團隊希望針對此現象進行效能測試,下列何者最符合測試重點?

白話

某企業導入生成式 AI 客服系統,系統整體運作穩定,單位時間內也能處理大量對話請求。但部分使用者反映,互動過程中回覆出現卡頓感。初步已排除網路連線和前端介面的問題。

問你:針對這個卡頓現象進行效能測試,最符合測試重點的是哪一項?

點選你的答案。

01 總結

一句話總結

使用者感受到「卡頓」是因為等待回覆的時間太長,要測的是單次互動的反應速度(延遲,Latency),而不是系統整體的吞吐量或穩定性。

02 情境

先感受問題:明明很快又很穩,為什麼感覺卡?

假設你在「美好家電」客服中心負責 AI 助理的效能監控。系統監控板上顯示一切正常:

  • 系統穩定度:99.8%(幾乎沒有當機)
  • 每分鐘處理對話數:1,200 則(吞吐量很高)
  • 網路連線:正常
  • 前端介面:沒問題

但客服主管拿著手機給你看:「你自己試試看,問它一個問題,從送出到開始看到回覆,要等 3 到 5 秒。使用者說感覺很慢、不流暢。」

你明白了:系統「整體」很快,但「單次」回覆的等待時間太長。使用者不在乎每分鐘處理 1,200 則,他在乎的是「我問了,多久看到答案」。

03 對照

測錯指標,問題永遠找不到

「美好家電」的工程師一開始測了一堆數據,但都不是關鍵:

  1. 測長時間穩定性:讓系統跑 48 小時,確認沒有崩潰,但使用者感受到的卡頓是在每次回覆的等待中,不是崩潰問題
  2. 測吞吐量(每秒請求數):確認系統每秒能處理多少個對話,數字很漂亮,但這是「系統整體的效率」,不是「每個使用者等多久」
  3. 測回覆語言品質:確認 AI 的回答有沒有語法錯誤或語意不通,這是品質問題,跟速度無關
  4. 只看後端 CPU 使用率:CPU 不高,但忘了 LLM 推論的時間不只取決於 CPU,還取決於模型大小、token 生成速度
  5. 只看 API 回應碼:都是 200 OK,代表請求成功,但不代表快,成功和快是兩件事

每一個測試都有意義,但都沒有抓到使用者卡頓感的根源。

04 解法

測單次回覆的延遲,才能找到卡頓點

「美好家電」的工程師調整測試重點,直接測量使用者能感受到的那個時間:

測量指標:延遲(Latency)。從使用者送出問題,到看到第一個字出現(首字延遲,Time to First Token),以及到整個回覆完成的時間。

測試設計:模擬 100 個使用者同時提問,記錄每一次互動的回覆時間分佈。結果發現:95% 的回覆在 1 秒內開始,但有 5% 的回覆要等超過 4 秒。使用者反映的卡頓感,就是這個長尾延遲造成的。

找到根本原因:當模型被要求生成長回覆(超過 500 個 token)時,推論時間顯著變長。解法是設定合理的回覆長度限制,或改用更快的模型版本處理即時客服場景。

這就是選項 D 講的:分析單次互動回覆的反應速度表現,這才是卡頓感的直接量測方式。

技術版:生成式 AI 系統的效能維度

生成式 AI 系統的效能評估有多個維度,混淆這些維度是造成測試錯誤的主因。

四種效能維度:

  • 延遲(Latency):單次請求從發出到收到回覆的時間,直接影響使用者體驗。LLM 的延遲包含首字延遲(TTFT)和整體生成時間
  • 吞吐量(Throughput):單位時間內系統能處理的請求總數,影響系統承載上限
  • 穩定性(Stability):長時間運行下系統的可用率和崩潰頻率,影響服務連續性
  • 品質(Quality):回覆的語意準確性、語言流暢度,屬於內容評估,不是效能指標

為什麼吞吐量高但延遲高可以同時存在:吞吐量是批次處理能力,系統可以平行處理 1,000 個請求,但每個請求都要等 3 秒。這種情況下,吞吐量高、延遲也高,兩者不矛盾。

為什麼出題者要考這題:AI 應用規劃師在評估生成式 AI 系統時,必須能區分不同效能維度,針對問題症狀選對測試方法。「卡頓感」是使用者體驗問題,對應的測試指標是延遲,不是吞吐量或穩定性。

05 陷阱

為什麼其他選項是錯的

A評估系統長時間運作的穩定程度

字面在說什麼

讓系統跑很長一段時間,確認它不會崩潰、不會異常,測試系統的可靠性。

為什麼不對

題目明確說「系統整體運作穩定」,穩定性問題已確認不是現在的問題。繼續測穩定性是浪費資源,找不到使用者感受到的卡頓原因。

誰會選錯

看到「效能測試」就直覺選「壓力測試、穩定性測試」的人。但測試的選擇應根據症狀定向,不是選最常見的測試類型。

B測量系統單位時間的總處理量

字面在說什麼

測試系統每秒或每分鐘能處理多少個對話,確認系統的吞吐量。

為什麼不對

題目說系統「在單位時間內可處理大量對話請求」,吞吐量沒問題已確認。再測吞吐量是在確認一個已知沒問題的指標,對找出卡頓原因毫無幫助。

誰會選錯

把「處理量大 = 效能好」當成唯一效能標準的人。效能有多個維度,「能處理多少」和「等多久」是不同的問題。

C比較不同回覆內容的語言品質

字面在說什麼

評估 AI 生成的回覆語言是否流暢、語意是否準確、有沒有錯誤。

為什麼不對

語言品質是「回覆內容好不好」的問題,跟「回覆速度快不快」是完全不同的維度。使用者反映的是卡頓感(速度問題),不是說回答很奇怪(品質問題),測語言品質完全答非所問。

誰會選錯

把「效能測試」和「品質評估」混在一起的人。對於 AI 系統,品質(說得好不好)和效能(回得快不快)是兩個獨立評估維度。

06 變形

同個考點下次怎麼變形

變形 1

什麼是首字延遲(Time to First Token, TTFT)?為什麼它對 AI 客服體驗很重要?

直覺

等全部回覆出來的時間才是重點吧?

答案

TTFT 是從送出請求到看到第一個字出現的時間。生成式 AI 通常是「邊生成邊顯示」,使用者看到第一個字就感覺系統開始回應了,TTFT 短就能顯著降低卡頓感,即使整體生成時間較長也不那麼難受。

變形 2

延遲(Latency)高和吞吐量(Throughput)不足,哪個更難解決?

直覺

都是效能問題,解法應該差不多?

答案

兩者通常有取捨關係(trade-off):增加批次大小可以提升吞吐量,但往往會增加延遲。生成式 AI 對延遲特別敏感,因為 token 是一個一個生成的,縮短延遲通常需要更快的 GPU 或更小的模型,比增加吞吐量更受硬體限制。

變形 3

生成式 AI 系統的效能測試應包含哪些場景?

直覺

正常使用就好,壓力測試不用吧?

答案

至少應測:單使用者低負載(基準延遲)、多使用者並發(壓力下的延遲與吞吐量)、長對話上下文(context 長度增加時的延遲變化)、長回覆生成(token 數多時的表現)。不同場景往往暴露不同瓶頸。

變形 4

改善生成式 AI 回覆延遲,有哪些常見策略?

直覺

只能換更貴的 GPU?

答案

除了升級硬體,還可以:使用更小的模型(如蒸餾模型)、限制最大輸出 token 數採用串流輸出(讓使用者看到生成過程而非等全部完成)、加入快取(相似問題直接回傳快取答案)。規劃師應根據延遲瓶頸選擇最合適的策略。

變形 5

使用者體驗中的「可接受延遲」大概是多久?

直覺

只要不超過 10 秒應該都可以?

答案

一般對話介面中,使用者對首字延遲的容忍度約在 1 到 2 秒以內,超過就開始有卡頓感。整體生成時間可以長一些(因為使用者看到文字在持續出現),但首字延遲是決定「第一印象快不快」的關鍵指標。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 115 年第一次 iPAS AI 應用規劃師 初級 科目二 生成式 AI 應用與規劃 第 4 題

查看官方原文 PDF