RTI（即時推論）是什麼？完整定義與解說

機器學習模型部署

你在結帳、刷卡、點餐時，會不會希望系統立刻給你結果，而不是等一整批資料一起跑完？

你可以把即時推論想成收到一筆資料就立刻算出答案，重點是快和穩。它常出現在需要秒級反應的場景，例如推薦、風控和線上客服。

你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

容易混淆

即時推論 vs 批次推論 批次推論是累積很多資料後一次處理。即時推論是來一筆就立刻回應。最關鍵的區別：一個重吞吐量，一個重延遲。

即時推論 vs 流式處理 流式處理重點是資料持續進來時的管線。即時推論重點是模型對單筆輸入的即時反應。最關鍵的區別：一個重資料流，一個重模型回應。

即時推論 vs 模型訓練 訓練是在學參數。推論是在用已經學好的模型做預測。最關鍵的區別：一個學，一個用。

記住這句就好

一筆資料進來，幾乎立刻要有答案。

實際案例

刷卡風控 信用卡交易一送出，系統就要判斷有沒有可疑風險。如果慢幾秒，可能就錯過攔截時機。

即時推薦 使用者剛點進首頁，系統就要把最可能點的內容排上來。這種場景看的是延遲，不是只看模型分數。

算法與應用

即時推論通常會搭配模型壓縮、量化、快取和特徵預先計算，讓每次請求都更快。系統設計時常要在延遲、吞吐量和成本之間取平衡。如果模型太大或外部依賴太多，即時體驗很容易被拖慢。

情境判斷

Q1（直覺題）： 你要做信用卡刷卡風控，收到交易後立刻判斷是否可疑，該用什麼？

→ 即時推論，因為反應速度直接影響風險控制。

Q2（判斷題）： 如果你是每晚凌晨才統一算一整天的會員推薦名單，這還算即時推論嗎？

→ 不算，這比較像批次推論，因為它不是來一筆就立刻回應。

常見問題

即時推論一定要毫秒級嗎？

不一定，關鍵是要符合使用者或系統能接受的延遲。

它一定比批次推論貴嗎？

常常比較貴，因為你要為低延遲準備更多資源。

什麼時候不該做即時推論？

當結果不急、可以晚點算、而且大量批次處理更省錢時，就不一定需要即時推論。

範例考題

某紡織製造公司導入 AI 系統進行布料瑕疵檢測，每天需處理來自 30 條產線的影像資料，包括高解析度照片、感測器數值、生產參數記錄等多種格式。該公司收集的資料量從每日 2GB 增長至 50GB，且需在布料離開產線前的 3 秒內完成瑕疵判定。近期團隊發現系統在尖峰時段容易出現判定延遲，影響製程節奏。若要優先改善此問題，下列哪一種做法最適合？

A. 擴充資料儲存容量，以因應長期資料累積需求
B. 強化即時資料處理與推論計算資源配置，以降低延遲風險 ✓ 正確答案
C. 調整資料格式標準，以降低跨來源整合複雜度
D. 增加資料驗證與清理機制，以提升資料品質穩定性

解析：

系統在尖峰時段出現判定延遲，核心問題是即時推論的計算資源不足。強化即時資料處理與推論的計算資源配置（如增加 GPU、優化推論流程）能直接解決延遲問題，確保在 3 秒內完成判定。

在 AI 推論服務架構設計中，「批次推論（Batch Inference）」與「即時推論（Real-time Inference）」常依任務特性選擇不同機制。下列關於兩者特性的敘述何者最正確？

A. 批次推論通常以同步請求方式回傳結果，以確保資料一致性；即時推論則多採非同步機制以提升系統吞吐量（Throughput）
B. 批次推論多用於延遲容忍度較高的大規模資料處理，通常以吞吐量（Throughput）最佳化為優先；即時推論則著重於請求回應時間的穩定性與低延遲特性 ✓ 正確答案
C. 批次推論因計算資源需求高，僅適用於影像類模型；即時推論則主要應用於結構化資料模型
D. 即時推論為確保回應速度，通常限制為單筆資料輸入；批次推論則可支援同步多筆資料即時回傳

解析：

批次推論適合大規模資料處理且對延遲容忍度較高的場景，以吞吐量最佳化為目標。即時推論則注重每次請求的回應時間穩定性與低延遲，適合需要即時結果的應用。