iPAS AI 應用規劃師初級　科目一　人工智慧基礎概論

AI 系統尖峰延遲，優先改哪裡？

原題 37

某紡織製造公司導入 AI 系統進行布料瑕疵檢測，每天需處理來自 30 條產線的影像資料，包括高解析度照片、感測器數值、生產參數記錄等多種格式。該公司收集的資料量從每日 2 GB 增長至 50 GB，且需在布料離開產線前的 3 秒內完成瑕疵判定。近期團隊發現系統在尖峰時段容易出現判定延遲，影響製程節奏。若要優先改善此問題，下列哪一種做法最適合？

白話

一個紡織廠的 AI 瑕疵檢測系統，每天要處理 30 條產線的影像，而且布料離開產線前只有 3 秒的判定時間。最近尖峰時段頻繁出現判定延遲，影響製程節奏。

問你：針對這個「尖峰時段出現判定延遲」的問題，應該優先採取哪種改善做法？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

AI 判定延遲的直接原因是「推論時運算資源不足」；優先改善方式是強化即時資料處理與推論計算資源配置，而非儲存、格式或資料品質。

02　情境

先感受問題：3 秒判定，但尖峰時塞車了

南紡紡織在彰化的工廠有 30 條布料產線，每條產線的布料以每秒 1 公尺的速度通過攝影機。AI 系統要在布料「離開產線前」判斷有沒有瑕疵，如果有就自動警報讓操作員介入。

這個「離開前」是 3 秒。超過 3 秒才判定完，布料已經進了下一道製程，要退件就麻煩了。

近來工程師發現：每天下午 2-4 點的尖峰時段（30 條線全開），判定時間從平均 1.5 秒拉長到 4-6 秒，超過了 3 秒的限制，導致有瑕疵的布料沒被攔到就進了下一站。

問題出在哪裡？應該先修哪裡？

03　對照

直覺上可能想到的幾個改法，哪個才對症？

工程師團隊討論了幾個方向，但仔細想都有問題：

買更多儲存空間：資料量從 2 GB 增長到 50 GB，確實需要更多儲存。但延遲問題是「判定速度不夠快」，和「有沒有地方存資料」完全不同。儲存空間不影響推論速度
統一資料格式：三種格式（照片、感測器、生產參數）確實可以簡化整合，但系統已經在正常時段跑得好，格式問題如果存在，應該一直都慢，不會只在尖峰才慢
加強資料驗證清理：資料品質問題會影響模型準確率，不會直接造成延遲。驗證清理反而會增加處理步驟，讓延遲更嚴重
根本原因被掩蓋：尖峰時段 30 條線同時送資料，推論請求量暴增。如果 GPU 或 CPU 資源只夠處理 15 條線，尖峰時就會排隊等待，造成延遲
資源配置才是關鍵：正常時段資源夠用，尖峰時段資源不夠，這是典型的「運算資源容量不足」問題，不是格式或品質問題

04　解法

強化推論資源配置，讓尖峰也能 3 秒內完成

工程師確認了根本原因：尖峰時段的推論請求排隊，每個請求都要等前一個跑完才能開始。解決方法是讓「同時可以處理的推論請求」變多。

增加 GPU 數量或換更快的推論卡：原本 2 張 GPU 負責 30 條線，改成 6 張，每條線平均分到的算力變大。

模型部署改為並行推論：讓多個推論實例同時跑，一台伺服器跑 4 個 AI 模型副本，同時處理 4 條線的資料，而不是排隊等一個。

使用邊緣運算（Edge Computing）：不把資料送到中央伺服器，直接在每條產線旁邊放一台小型推論設備（Edge AI），就地完成判定。30 條線各自獨立，互不干擾，完全沒有尖峰排隊問題。

任何一種方案的核心都是：強化即時推論的計算資源，讓資源容量大於尖峰需求。

這就是選項 B 講的：強化即時資料處理與推論計算資源配置，以降低延遲風險。

技術版：即時推論延遲的系統瓶頸分析

AI 系統的效能瓶頸通常出現在三個層面：資料輸入、推論計算、結果輸出。本題的延遲明顯集中在「推論計算」，因為問題是「尖峰才慢」，而不是「一直都慢」。

即時推論（Real-time Inference）的資源需求：每次 AI 判定（推論）需要把影像資料載入 GPU 記憶體、執行模型的前向傳播、輸出結果。這個過程對 GPU 算力和記憶體頻寬有強烈需求。多個請求同時進來時，如果 GPU 已滿負荷，後來的請求就只能排隊。

解決方案的技術層面：

垂直擴展（Scale Up）：換更快的 GPU，例如從 T4 升到 A100
水平擴展（Scale Out）：增加 GPU 數量，分散負載
模型壓縮（Model Compression）：用量化（Quantization）或剪枝（Pruning）讓模型更小、推論更快
邊緣部署（Edge Deployment）：把推論移到靠近資料來源的邊緣設備，消除網路傳輸延遲

為什麼出題者考這題：AI 系統維運中，正確診斷效能瓶頸是關鍵能力。儲存、格式、品質都是重要的維運議題，但它們不是「延遲」的直接原因。混淆問題和解法，會浪費資源又無法解決真正的問題。

05　陷阱

為什麼其他選項是錯的

A擴充資料儲存容量，以因應長期資料累積需求

字面在說什麼

買更多硬碟或雲端儲存空間，應對資料量從 2 GB 增長到 50 GB 的需求。

為什麼不對

儲存容量不足會導致「資料存不下去」，不會導致「即時判定延遲」。延遲是運算速度問題，儲存是空間問題，兩者是完全不同的系統資源。這個選項解決的是另一個問題（長期儲存），不是眼前的延遲問題。

誰會選錯

看到「資料量從 2 GB 增長到 50 GB」就聯想到「要擴充儲存」，但沒注意延遲問題的直接原因是推論速度的人。

C調整資料格式標準，以降低跨來源整合複雜度

字面在說什麼

統一三種格式（照片、感測器、生產參數），讓整合更簡單。

為什麼不對

格式問題如果存在，應該導致「一直慢」，而不是「尖峰才慢」。題目說「近期在尖峰時段容易出現延遲」，暗示正常時段是正常的。格式問題不會在尖峰突然出現。況且格式整合是前置處理步驟，即使簡化了，推論速度瓶頸還是存在。

誰會選錯

看到「多種格式」就認為這是問題根源的人，忽略了「只有尖峰才慢」這個關鍵線索。

D增加資料驗證與清理機制，以提升資料品質穩定性

字面在說什麼

加強進入 AI 模型前的資料過濾和驗證流程，讓模型收到的資料品質更穩定。

為什麼不對

資料驗證和清理會增加前置處理步驟，反而可能讓延遲更嚴重，完全是反效果。再者，資料品質問題影響的是「模型準確率」（判斷對不對），不是「判斷速度」（幾秒內完成）。題目抱怨的是延遲，不是誤判。

誰會選錯

把「資料品質穩定」和「系統穩定」混淆的人，或沒有區分「準確率問題」和「速度問題」的人。

06　變形

同個考點下次怎麼變形

變形 1

邊緣運算（Edge Computing）在工廠 AI 中有什麼優勢？

直覺

把 AI 推論放在產線旁邊的設備上，和放在中央伺服器有什麼差別？

答案

邊緣運算把推論放在靠近資料來源的設備（Edge Device）上，三大優勢：一、速度：省去資料傳輸到中央伺服器的網路時間，對 3 秒這種嚴格時限特別重要；二、穩定性：即使網路斷線，邊緣設備仍能獨立運作；三、隱私：資料不離開產線，降低工廠機密資料外洩風險。缺點是每個邊緣設備都需要維護，管理成本較高。

變形 2

模型量化（Quantization）如何改善 AI 推論速度？

直覺

不想花錢買新硬體，有辦法讓同樣的硬體跑更快嗎？

答案

量化是把模型的浮點數參數（通常 32-bit 或 16-bit）壓縮成 8-bit 整數，讓模型「輕量化」。好處：模型大小縮小 2-4 倍、推論速度提升 2-4 倍、記憶體佔用降低。代價：準確率略微下降（通常不超過 1-2%）。工廠的瑕疵檢測可以接受少許準確率損失，換取更快的推論速度，是實務上常用的優化手段。

變形 3

批次推論（Batch Inference）和即時推論（Real-time Inference）有何差異？

直覺

資料可以「攢一批再一起跑」嗎？

答案

批次推論把多筆資料打包成一個批次一起處理，GPU 使用率高、成本低，但需要等所有資料收齊才能開始，有延遲。即時推論每收到一筆資料就立刻處理，延遲低，但 GPU 使用率較低，成本較高。工廠「3 秒內判定」必須用即時推論，不能用批次方式。

變形 4

AI 系統的「延遲（Latency）」和「吞吐量（Throughput）」有何不同？

直覺

這兩個詞都用來描述系統速度，但考試要能區分。

答案

延遲（Latency）是「一個請求從提交到得到結果的時間」，例如 3 秒。吞吐量（Throughput）是「單位時間能處理的請求數量」，例如每秒處理 100 條產線的影像。兩者有時互相競爭：把多個請求打包（增加吞吐量）會增加單個請求的等待時間（增加延遲）。工廠案例重視的是延遲（每張影像要在 3 秒內完成），不是吞吐量。

變形 5

AI 系統性能優化應先處理「瓶頸」，怎麼找到瓶頸？

直覺

AI 系統有很多部分可以優化，要從哪裡下手？

答案

找瓶頸的原則是：觀察「什麼條件下系統變慢」。本題「尖峰才慢」指向「資源容量不足」；如果「一直都慢」則要看資料格式、模型複雜度或前置處理。實務上用效能分析工具（Profiling）測量各個步驟的耗時，找出最慢的那一段，集中改善。改了瓶頸後，整體性能就會顯著提升；改了非瓶頸的地方，幾乎沒有效果。

07　延伸

想再往下看，這 5 個

即時推論（Real-time Inference）AI 模型在嚴格時間限制內輸出結果的運作模式，3 秒判定窗口的核心需求，計算資源不足時第一個崩潰的瓶頸
邊緣人工智慧（Edge AI）在靠近資料來源的設備上執行 AI 推論，避免將龐大影像資料傳回雲端，降低網路傳輸延遲
推論最佳化（Inference Optimization）在不重新訓練模型的前提下提升推論速度，涵蓋算子融合、記憶體排程等技術，是解決尖峰延遲的主要手段
模型量化（Quantization）壓縮模型精度以提升推論速度，在幾乎不損失準確率的情況下降低 GPU 記憶體佔用，是推論加速常見手段
批次推論（Batch Inference）累積多筆樣本一起送入模型計算，與即時推論相對，在低延遲要求場景中犧牲吞吐量換時效