iPAS AI 應用規劃師初級　科目二　生成式 AI 應用與規劃

智慧工廠語音 AI 改善，要先修哪裡？

原題 44

某智慧製造廠導入語音互動 AI 助理，作業人員可透過語音查詢設備狀態與操作指引。系統流程包含語音轉文字、語言模型生成回覆，以及即時查詢內部系統資料。測試結果顯示：語音轉文字在專業設備術語上錯誤率偏高；語言模型回覆偶有內容不夠精準；系統整體回應速度略慢但仍在可接受範圍。若專案目標為優先確保正確執行指令，下列改善措施的執行順序何者最合理？

白話

智慧製造廠導入語音 AI 助理，讓作業人員用語音查詢設備狀態和操作指引。系統的流程是：語音轉文字 → 語言模型生成回覆 → 查詢內部系統資料。

測試發現三個問題：語音辨識在專業設備術語上錯誤率偏高、語言模型回覆偶有不夠精準、整體速度略慢但在可接受範圍。專案的最高目標是「優先確保正確執行指令」。

問你：針對這三個問題，依照「確保指令正確執行」的優先目標，改善措施的執行順序應該怎麼排？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

系統流程是「語音→文字→語言模型→回覆」，確保指令正確的第一步是讓語音辨識聽對；正確的改善順序：先強化語音模型，再優化語言模型與知識補充，再調整生成參數，最後才做速度優化。

02　情境

先感受問題：工廠裡說錯一個詞，機器就動錯了

「精鑄工業」在 CNC 加工廠導入了語音 AI 助理「鑄聲」，讓機台操作員可以邊工作邊語音查詢：「查一下 5 號機的進給速率」「顯示目前主軸轉速設定」「這個錯誤碼 E-247 代表什麼」。

測試三週後，工程師陳建豐整理出三個問題：第一，語音辨識在專業術語上錯誤率達 18%，「進給速率」常被聽成「進退速率」、「主軸」常被聽成「主線」；第二，語言模型的回覆有時候對設備規格描述不夠準確；第三，系統有時候要 2-3 秒才回應，但操作員說這還可以接受。

管理層要求：「先確保指令執行正確，速度次之。」陳建豐必須決定改善的先後順序。他想了一下：如果語音辨識把「查進給速率」聽成「查進退速率」，後面的語言模型不管再精準，也會回答一個錯誤的問題。輸入錯了，輸出必然跟著錯。要從源頭修起。

03　對照

錯誤的改善順序會帶來什麼問題

如果不按正確優先順序處理，可能出現這些困境：

先修語言模型卻沒修語音辨識：語言模型回答更精準了，但語音辨識還是把「進給速率」聽成「進退速率」，結果是「精準地回答了錯誤的問題」，指令正確率完全沒有改善
先優化速度：把 2-3 秒的回應時間縮到 1 秒，但指令理解還是錯的，等於「更快地給出錯誤答案」，不符合目標
先調整生成參數：調整 temperature、top-p 等生成設定，改變的是回覆的風格和隨機性，根本不影響語音辨識錯誤率或知識準確性
改善沒有依賴鏈分析：系統是流水線（語音→文字→模型→回覆），上游的錯誤會傳播到所有下游環節，不從上游修起等於事倍功半
把「可接受」的問題排優先：速度「仍在可接受範圍」，題目已明示這不是主要瓶頸，卻誤判成優先項目

改善順序搞錯，不只浪費工程資源，還可能讓工廠誤以為問題已解決，繼續帶著錯誤的系統運作。

04　解法

按照系統流水線和目標優先順序來排

陳建豐決定按照系統流水線的上游到下游，結合問題嚴重程度排定順序。

第一步：強化語音模型。語音辨識是整個流程的入口，術語錯誤率 18% 是明確的嚴重問題，而且是最上游的。優先收集工廠專業術語詞庫，對語音辨識模型進行領域微調（Fine-tuning），讓它認識「進給速率」「主軸轉速」「錯誤碼」這些製造業術語。

第二步：優化語言模型與知識補充。語音辨識修好後，接著處理語言模型回覆不夠精準的問題。補充設備手冊、操作規程等企業知識（可透過 RAG 導入），讓模型能準確回答設備相關問題。

第三步：調整生成參數。知識補充後，再微調 temperature 等參數，讓回覆的風格更適合工廠作業場景（例如更簡潔、更直接）。

第四步：優化系統效能。速度問題目前可接受，最後再優化。前三步反而可能因為模型更精準而略微增加延遲，確認前三步穩定後再統一優化效能。

這就是選項 B 講的：強化語音模型 → 優化語言模型與知識補充 → 調整生成參數 → 優化系統效能，從上游到下游，按照「最影響指令正確性」的順序處理。

技術版：AI 系統改善的優先順序框架

AI 系統的改善優先順序應遵循「依賴鏈（Dependency Chain）分析」：在流水線架構中，上游的錯誤會傳播到所有下游環節，因此上游問題必須優先解決。

語音 AI 系統的依賴鏈：

語音輸入 → 語音辨識（ASR）→ 文字 → 語言模型（LLM）→ 回覆生成 → 輸出
每個環節的錯誤都會傳播到下游：ASR 輸出錯誤詞，LLM 就會理解並回覆錯誤內容

改善優先順序原則：

先修對目標影響最大的問題：目標是「正確執行指令」，語音辨識錯誤直接導致指令錯誤，影響最大
先修上游再修下游：修了語言模型但沒修語音辨識，是「精準回答錯誤問題」
「可接受」的問題最後處理：速度問題已被明確標示為可接受，不應搶先

為什麼出題者要考這題：AI 應用規劃師必須能在系統出現多個問題時，快速判斷哪個問題影響最大、哪個最上游，做出有邏輯的優先順序決策，而不是全部一起修或從最容易的開始修。

05　陷阱

為什麼其他選項是錯的

A優化語言模型 → 強化語音模型 → 優化系統效能 → 調整生成參數

字面在說什麼

先讓語言模型更準，再修語音辨識，再改速度，最後調生成參數。

為什麼不對

把語言模型排在語音辨識前面，違反了依賴鏈邏輯。語音辨識是上游，錯誤率高的問題沒解決，語言模型做得再好，都是在「精準地回應錯誤的輸入」，無法達到「正確執行指令」的目標。

誰會選錯

直覺認為語言模型是 AI 系統的「大腦」、最重要所以先改的人。語言模型雖然是核心，但在流水線中它依賴語音辨識的輸出，源頭不修等於白費。

C優化系統效能 → 強化語音模型 → 優化語言模型與知識補充 → 調整生成參數

字面在說什麼

先把速度問題解決，再依序修語音辨識和語言模型。

為什麼不對

速度問題題目已明確說「仍在可接受範圍」，把它排第一完全不符合「優先確保正確執行指令」的目標。這是典型的「先修容易的而不是先修重要的」錯誤。

誰會選錯

把「使用者體驗問題（速度）」放在優先順序前面的人，或誤以為速度影響準確性的人。速度和準確性是兩個獨立維度，本題目標是準確性。

D強化語音模型 → 優化系統效能 → 優化語言模型與知識補充 → 調整生成參數

字面在說什麼

先修語音辨識，再修速度，再修語言模型，最後調生成參數。

為什麼不對

第一步對了（先修語音辨識），但第二步跑去優化系統效能，把「可接受的速度問題」插到「未解決的語言模型精準度問題」前面。語言模型回覆不夠精準仍直接影響指令正確性，應優先於速度優化。

誰會選錯

第一步選對了但後面順序猶豫的人，或把 D 和 B 搞混的人。兩個選項差在第二步：D 先速度、B 先語言模型，而語言模型精準度比速度更直接影響指令正確性。

06　變形

同個考點下次怎麼變形

變形 1

如何讓語音辨識模型更好地識別特定行業術語？

直覺

術語辨識不好，要怎麼改？換一個更大的模型嗎？

答案

主要方法有兩種：詞彙表注入（Custom Vocabulary）：把行業術語加入語音辨識模型的專用詞庫，讓它優先考慮這些詞；領域微調（Domain Fine-tuning）：用該行業的語音資料重新訓練語音辨識模型的最後幾層，讓它學習行業發音習慣。前者成本低但效果有限，後者效果佳但需要標記語音資料。

變形 2

RAG 如何幫助語言模型更準確地回覆企業內部資訊？

直覺

語言模型不知道公司內部的設備手冊，怎麼辦？

答案

RAG（Retrieval-Augmented Generation）讓模型在生成回覆前，先從企業知識庫（設備手冊、操作 SOP、錯誤碼列表）中搜尋相關段落，把這些段落連同問題一起送進模型，模型的回覆就有了具體的企業知識作為依據，而不是靠通用訓練知識推測。

變形 3

AI 系統的「回應速度慢」問題有哪些常見優化方向？

直覺

速度慢就是換更快的電腦？

答案

常見優化方向包含：模型量化（Quantization）：用精度較低的數值格式（如 INT8）儲存模型參數，縮小模型體積並加速推論；快取機制（Caching）：把常見問題的回覆快取起來，相同問題不需重新推論；模型蒸餾（Distillation）：訓練小模型模仿大模型行為，用較小模型做推論；串流輸出（Streaming）：邊生成邊輸出，讓使用者感受上更快。

變形 4

AI 系統的改善優先順序，除了「依賴鏈」，還應考慮什麼？

直覺

是不是只要找到最上游的問題就先修那個？

答案

除了依賴鏈，還要考慮：目標影響程度（哪個問題最影響關鍵目標）、修復難度與風險（高影響低難度的先做）、使用者接受度（「可接受範圍」的問題可以後做）。本題語音辨識問題同時滿足「上游」和「最影響目標」兩個條件，因此排第一。

變形 5

語音 AI 系統在工業場景特別需要注意什麼？

直覺

工廠用語音 AI 跟辦公室用感覺差不多吧？

答案

工業場景有幾個特殊挑戰：噪音環境（機台運轉聲、噪音背景讓語音辨識更困難）、專業術語密集（大量行業術語、型號代碼、錯誤碼）、指令執行安全性（語音辨識錯誤可能導致錯誤操作指令，在工業場景有人員安全風險）、使用者配戴手套或安全帽麥克風（影響收音品質）。這些都讓工業語音 AI 的準確率要求比消費場景更高。

07　延伸

想再往下看，這 5 個

語音辨識（Speech Recognition）將語音轉換為文字的技術，工業場景需針對專業設備術語進行領域微調以提升準確率
檢索增強生成（Retrieval-Augmented Generation）讓語言模型在生成回覆前先從知識庫搜尋相關資料，解決模型不知道企業內部操作規程的問題
微調（Fine-tuning）用特定行業資料對預訓練模型進行再訓練，使語音或語言模型更好地理解行業術語與指令語境
模型量化（Quantization）降低模型參數數值精度以縮短推論時間，用於解決語音 AI 回應速度略慢的問題
語音轉錄模型（Whisper）OpenAI 開源的多語言語音辨識模型，可做為工業場景語音 AI 的基礎模型並針對術語進行微調