SR（語音辨識）是什麼？完整定義與解說

你有沒有在你對手機說話，想把聲音變成文字或指令，發現只看表面常常不夠？

你可以把它想成讓機器先聽懂你說了什麼，再把聲音轉成文字。

語音助理、字幕、會議轉錄都靠它把口語變成可處理的文字。

你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

容易混淆

語音合成 語音辨識是「聽」的技術，把聲音變成文字。語音合成是「說」的技術，把文字變成聲音。一個是把人的話讓機器懂，另一個是讓機器能用人的方式說話。

最關鍵的區別：先看它是在比意思、比結構，還是在做任務輸出。

把聲音變文字，就是語音辨識。

手機語音輸入把你的口述轉成訊息內容。會議錄音轉文字，方便後續搜尋和摘要。

核心元件常包含聲學模型、語言模型和解碼器，現在也常用端到端深度學習架構。評估常看詞錯誤率，因為一個字辨錯就可能影響整句意思。

Q1（直覺題）： 你按住麥克風對手機說話，這就是語音辨識的典型應用嗎？

→ 是。把聲音轉成文字或指令，正是它的主場。

Q2（判斷題）： 如果環境很吵、講話又重疊，準確率通常會怎樣？

→ 會下降。看情況，噪音和重疊語音都會讓辨識變難。

出題方向：常考基本定義、聲學模型與語言模型的分工、以及詞錯誤率這個評估指標。題目：語音辨識系統的主要目的是什麼？答案： → 把人類語音轉換成機器可處理的文字或指令。

什麼是語音辨識？

語音辨識是一種將人類語音轉換為機器可理解的文字或指令的技術，使電腦能夠聽懂並處理人類語言。它結合了聲學模型和語言模型，在人機交互中扮演重要角色。

語音辨識在 iPAS 考試中怎麼考？

iPAS 初級考試（L11402）中，語音辨識的考點包括基本概念、核心技術（聲學模型、語言模型）、評估指標（詞錯誤率）和實際應用。常見題型有選擇題、簡答題和案例分析。

語音辨識和哪個術語最常被混淆？

語音辨識最常與語音合成混淆。語音辨識是將語音轉換為文字，而語音合成則是將文字轉換為語音。兩者功能相反，但都是語音處理的重要組成部分，應用於不同場景。