iPAS AI 應用規劃師初級　科目一　人工智慧基礎概論

LLM 推論的 Batching 機制，對效能有什麼影響？

原題 25

在大型語言模型（LLM）的推論服務中，常透過請求批次處理（Batching）來提升系統效能。關於批次處理（Batching）機制的影響，下列敘述何者最正確？

白話

大型語言模型（LLM）的推論服務中，常用請求批次處理（Batching）來提升系統效能。

問你：關於批次處理（Batching）機制對系統效能的影響，下列哪項描述最正確？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

Batching 提升 GPU 效率和整體吞吐量，但湊批等待的時間可能讓部分單筆請求延遲增加，兩者是取捨關係。

02　情境

先感受問題：一台 GPU 一次只做一件事，太浪費了

假設「智問科技」在部署一個 LLM 問答服務，讓企業員工問問題。一台高端 GPU 要價 200 萬台幣，每個月電費加機架費要 3 萬。

如果不使用 Batching，每次只處理一筆請求：員工甲問問題，GPU 開始算；算完了，員工乙的問題才開始；再算完，員工丙的問題才輪到。

問題是：GPU 計算一個回答通常只需要 0.5 秒，但員工問問題不是排好隊同時湧入的，有時候間隔幾秒才來一筆。GPU 一直在等，使用率只有 30%，相當於花了 200 萬買了一台機器，70% 的時間它在發呆。

Batching 的想法：把幾毫秒內進來的多個請求合併成一批，一次送進 GPU。GPU 同時幫 8 個人算，使用率從 30% 提升到 90% 以上，整體服務能應付的請求量大幅增加。

03　對照

不用 Batching 的五個後果

「智問科技」在早期沒有實作 Batching，遇到了這些問題：

GPU 使用率低：GPU 是平行計算高手，同時算幾百件事效率最高，一次只算一件，幾乎是浪費它的設計優勢
成本暴增：服務 100 個並發使用者需要 10 台 GPU；有了 Batching，可能只要 2 台，成本差 5 倍
高峰期崩潰：中午休息時間大家都在問問題，沒有 Batching 的系統一筆一筆排隊，後面的人等到天荒地老
資源規劃困難：不知道一台 GPU 能支撐多少使用者，只能保守地買很多台，備而不用
競爭力輸掉：同樣的 GPU 成本，有 Batching 的服務能服務 5 倍的使用者，沒有 Batching 的服務報價比對手貴 5 倍

04　解法

Batching 怎麼提升效率，代價又是什麼

「智問科技」實作 Batching 後，服務邏輯改成：有新請求進來，先等一個短暫的時間窗口（例如 10 毫秒），如果在這段時間內有其他請求也進來，就把它們合成一批，再一起送進 GPU。

效益：GPU 同時處理 8 筆請求，運算量幾乎一樣（因為 GPU 本來就是設計來平行算的），使用率大幅提升，整體吞吐量（每秒能處理幾筆）增加好幾倍。

代價：先進來的請求要等到後面的請求湊夠一批才能開始算，等待時間就變成延遲的一部分。如果服務很忙、請求一直進來，等待時間很短，幾乎感覺不到；如果服務很閒、請求稀稀落落，可能要等比較久才湊到一批，延遲反而比一筆一筆算還長。

這就是選項 A 描述的：Batching 可提升加速器資源使用效率並增加整體吞吐量，但在部分情境下可能對單筆請求延遲造成影響。

技術版：LLM 服務中 Batching 的機制與取捨

為什麼 GPU 特別適合 Batching：GPU 是大規模平行計算的硬體，設計上就是同時做幾千個相同的運算。一批 8 個請求和一批 1 個請求，在 GPU 上的計算時間差距可能很小，但吞吐量是 8 倍。

靜態批次 vs 動態批次：靜態批次（Static Batching）等到湊滿固定大小才算；動態批次（Dynamic Batching）在一個短時間窗口內有多少算多少，更靈活。現代 LLM 服務框架（vLLM、TGI）通常用連續批次（Continuous Batching），讓不同長度、不同進度的請求可以共享 GPU 資源，效率更高。

低併發時 Batching 效果有限：如果服務只有 1-2 個使用者，每次都只能湊到小批，Batching 的效益就很有限，甚至因為等待湊批反而增加延遲。Batching 在高并發（高流量）場景才能發揮最大價值。

為什麼出題者要考這題：AI 規劃師需要理解 LLM 服務的效能優化機制，才能正確評估部署成本、服務容量和延遲承諾。Batching 是 LLM 部署中最基礎的優化手段，不理解它就無法做有效的資源規劃。

05　陷阱

為什麼其他選項是錯的

BBatching 主要用於加快單筆請求回應時間

字面在說什麼

用了 Batching，每一筆請求的回應速度會更快。

為什麼不對

Batching 的設計目的是提高整體吞吐量，而不是加快個別請求的速度。實際上，單筆請求在 Batching 中可能因為要等其他請求湊批而延遲更長。選項 B 把「整體吞吐量」跟「單筆速度」混為一談。

誰會選錯

覺得「一起算比分開算快」所以每筆也變快的人。一起算快的是 GPU 整體使用效率，不是每筆的個別等待時間。

CBatching 的效益主要來自降低記憶體使用量，對於吞吐量與延遲表現影響有限

字面在說什麼

Batching 最主要的好處是節省記憶體，對速度沒什麼幫助。

為什麼不對

Batching 的主要效益是計算效率和吞吐量，不是記憶體。實際上一批多筆可能用的記憶體比一筆更多（因為要同時存多筆的中間結果）。對吞吐量的影響也非常顯著，說「影響有限」完全不符合實際情況。

誰會選錯

把 Batching 跟其他記憶體優化技術（如 KV Cache 壓縮）混淆的人。這些是不同的優化手段，效益方向不同。

DBatching 在低併發請求下，仍能明顯提升系統效能

字面在說什麼

就算使用者很少、請求量低，Batching 還是會有明顯效果。

為什麼不對

低併發時，請求稀少，每次都湊不成大批，Batching 的效益會大幅縮水，甚至可能因為等待湊批反而讓延遲更差。Batching 的效益在高并發（大量請求同時進來）時才能充分展現。

批次推論（Batch Inference）將多筆推論請求合併同時處理，提升加速器使用率與整體吞吐量，是 LLM 服務效能優化的核心策略
推論最佳化（Inference Optimization）提升模型推論速度與效率的技術集合，包含批次處理、量化、快取等，影響 LLM 部署的成本與回應品質
圖形處理器（GPU）LLM 推論的主要加速硬體，批次處理的核心優勢在於提升 GPU 的平行運算利用率
即時推論（Real-time Inference）強調低延遲即時回應的推論模式，與批次處理在吞吐量和延遲之間形成設計上的取捨
大型語言模型（Large Language Model）參數量龐大的語言模型，推論計算需求高，批次處理是提升其服務規模化效率的關鍵方法