iPAS AI 應用規劃師初級　科目二　生成式 AI 應用與規劃

GPT-Realtime 類型模型最適合哪種應用場景？

原題 20

在規劃生成式 AI 解決方案時，下列何種應用場景最適合採用 GPT-Realtime 類型模型？

白話

在規劃生成式 AI 解決方案，要把 GPT-Realtime 類型的模型用在某個應用場景上。

問你：哪一種應用場景，最適合採用 GPT-Realtime 類型模型？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

GPT-Realtime 的核心設計是「低延遲語音即時互動」，最適合即時語音客服和互動式 AI 代理這種需要自然、低延遲語音對話的場景。

02　情境

先感受問題：AI 客服要打電話，用哪種模型？

假設你是「好服務」電商公司的 AI 導入負責人，老闆要你評估兩個方案：方案一是讓 AI 生成每日的銷售報表，方案二是讓 AI 接電話，即時回答客戶的訂單問題（如「我的包裹在哪裡」「可以換貨嗎」）。

這兩個方案對 AI 模型的要求完全不同。方案一（報表生成）：不需要即時，客戶等 5 分鐘報表出來沒問題；方案二（語音客服）：電話接通後，客戶說完一句話，AI 必須在半秒內回應，不然對話體驗崩潰。

GPT-Realtime 的設計就是為了方案二這種場景：客戶說話 → AI 即時理解語音 → 即時生成語音回應。這個「語音進、語音出，延遲極低」的特性，正是即時語音客服的核心需求。

03　對照

用傳統 AI 處理語音客服，有哪些問題

延遲過高：傳統流程是「語音 → STT（轉文字）→ LLM 處理 → TTS（轉語音）→ 輸出」，三個轉換步驟累積的延遲可能超過 2-3 秒，對話感覺非常不自然
語音情緒遺失：STT 只把語音轉成文字，客戶聲音裡的情緒（著急、憤怒、困惑）資訊在轉換中消失，AI 無法感知情緒做出適當回應
語調不自然：TTS 把文字轉成語音，但合成語音的語調和節奏不自然，客戶體驗差
打斷處理困難：傳統系統處理「用戶在 AI 說話中途打斷」的情況很不靈活，而人類對話中打斷是很常見的
無法做到端對端優化：三個獨立系統各自優化，整體體驗仍然是分段的、不連貫的

04　解法

GPT-Realtime 怎麼解決即時語音的需求

「好服務」公司的 AI 語音客服採用 GPT-Realtime 之後：

端對端語音處理：GPT-Realtime 直接處理語音輸入和語音輸出，不需要先轉文字再轉回來。延遲從傳統的 2-3 秒壓縮到接近實時，電話對話體驗自然很多。

理解語音的情緒和語調：由於直接處理語音信號，模型能感知客戶的語氣（急促、困惑），做出更有同理心的回應。

自然的打斷處理：客戶說到一半插話，AI 能自然地停止說話並重新回應，就像真人對話一樣。

結果：客戶打電話問「我的訂單 #2345 什麼時候到」，AI 即時查詢、即時語音回應，整個互動流暢自然，不再有明顯的「機器感」停頓。

這就是選項 C 講的：即時語音客服與互動式 AI 代理是 GPT-Realtime 最適合的應用場景。

技術版：GPT-Realtime 的技術特性與適用場景

GPT-Realtime 的技術特性：OpenAI 的 Realtime API（2024 年發布）設計了一個端對端（end-to-end）的語音對話系統，模型直接接受音訊輸入並輸出音訊，不需要獨立的 STT（Speech-to-Text）和 TTS（Text-to-Speech）步驟。核心優點是極低的延遲（typically <500ms）、保留語音的情緒資訊、更自然的語調。

適用場景的判斷標準：選擇 GPT-Realtime 的關鍵判斷點是「是否需要低延遲的即時語音互動」。不需要語音或不需要即時的場景（批次處理、文字報表、結構化搜尋、文件摘要），都不應該使用 Realtime API，成本更高但優勢發揮不出來。

與 Batch API 的對比：OpenAI 同時提供 Realtime API（即時低延遲）和 Batch API（批次處理）。Batch API 適合大量非即時任務（報表、分析），成本更低；Realtime API 適合即時互動場景，但成本更高。選型時要根據場景需求，不是哪個更「先進」就用哪個。

為什麼出題者要考這題：AI 應用規劃師必須能根據應用場景需求選擇合適的模型類型。不同的模型在延遲、成本、輸入輸出模態上各有差異，選型錯誤會導致成本浪費或體驗不符預期。這題考的是對「模型特性與場景匹配」的基本判斷能力。

05　陷阱

為什麼其他選項是錯的

A需長時間批次處理的大規模報表生成任務

字面在說什麼

用 GPT-Realtime 生成大量報表，一次處理很多。

為什麼不對

批次報表生成完全不需要「即時（Realtime）」特性，也不需要語音。這種場景應該用 Batch API（批次處理，成本更低）。用 Realtime API 跑批次任務，是用錯工具，既浪費成本，又沒有發揮 Realtime 的任何優勢。

誰會選錯

以為「新的就是好的，把最新的模型用在所有場景」的人。選型的正確邏輯是根據需求對應特性，不是把最貴或最新的模型通用。

B即時資料查詢與結構化資訊檢索系統

字面在說什麼

用 GPT-Realtime 讓系統即時搜尋資料庫、回傳結構化查詢結果。

為什麼不對

結構化資訊檢索（如 SQL 查詢、資料庫搜尋）是文字型操作，不需要語音互動，也不需要 Realtime 的低延遲語音特性。一般的 LLM API 配合資料庫工具呼叫就可以處理，用 Realtime API 只是增加成本，沒有帶來額外價值。

誰會選錯

看到「即時查詢」就以為要用「Realtime」模型的人。「即時」在資料查詢的語境是「快速回應」（幾百毫秒），不是「低延遲語音對話」，兩者是不同層面的「即時」。

D以高一致性為優先的法規文件自動摘要

字面在說什麼

用 GPT-Realtime 把法規文件摘要成一致格式的重點。

為什麼不對

法規文件摘要需要的是高準確性和一致性，這是需要仔細、穩定處理的批次任務，不需要語音也不需要即時。而且 Realtime API 的語音輸出特性對文件摘要完全沒有用，用 Realtime API 做這個任務是完全沒有意義的工具選擇。

即時推論（Real-time Inference）模型接收輸入後立即回傳結果的部署模式，低延遲是 GPT-Realtime 類即時語音場景的核心需求
對話式人工智慧（Conversational AI）能與用戶進行自然多輪對話的 AI 系統，即時語音客服是其最典型的應用場景
語音辨識（Speech Recognition）將口語轉換為文字的技術，是傳統語音 AI 流程的第一步，GPT-Realtime 則省略此中間步驟直接端對端處理
語音合成技術（Speech Synthesis）將文字轉換為自然語音的技術，傳統流程需要獨立 TTS 模組，GPT-Realtime 整合了這個能力
批次推論（Batch Inference）將多筆請求打包一起處理的推論模式，成本低但有延遲，適合大規模報表生成等非即時任務，與即時模型形成對比