語音辨識(Speech Recognition)是什麼?

語音辨識是一種將人類語音轉換為機器可理解的文字或指令的技術,使電腦能夠聽懂並處理人類語言。|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

語音辨識(Speech Recognition)是什麼? iPAS 中頻 語音辨識Speech Recognition

你有沒有在你對手機說話,想把聲音變成文字或指令,發現只看表面常常不夠?

你可以把它想成讓機器先聽懂你說了什麼,再把聲音轉成文字。

語音助理、字幕、會議轉錄都靠它把口語變成可處理的文字。

你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。

容易混淆

語音合成 語音辨識是「聽」的技術,把聲音變成文字。 語音合成是「說」的技術,把文字變成聲音。一個是把人的話讓機器懂,另一個是讓機器能用人的方式說話。

最關鍵的區別:先看它是在比意思、比結構,還是在做任務輸出。

記住這句就好

把聲音變文字,就是語音辨識。

實際案例

手機語音輸入把你的口述轉成訊息內容。 會議錄音轉文字,方便後續搜尋和摘要。

算法與應用

核心元件常包含聲學模型、語言模型和解碼器,現在也常用端到端深度學習架構。 評估常看詞錯誤率,因為一個字辨錯就可能影響整句意思。

情境判斷

Q1(直覺題): 你按住麥克風對手機說話,這就是語音辨識的典型應用嗎?

→ 是。把聲音轉成文字或指令,正是它的主場。

Q2(判斷題): 如果環境很吵、講話又重疊,準確率通常會怎樣?

→ 會下降。看情況,噪音和重疊語音都會讓辨識變難。

iPAS 考題

出題方向: 常考基本定義、聲學模型與語言模型的分工、以及詞錯誤率這個評估指標。 題目: 語音辨識系統的主要目的是什麼? 答案: → 把人類語音轉換成機器可處理的文字或指令。

常見問題

什麼是語音辨識?

語音辨識是一種將人類語音轉換為機器可理解的文字或指令的技術,使電腦能夠聽懂並處理人類語言。它結合了聲學模型和語言模型,在人機交互中扮演重要角色。

語音辨識在 iPAS 考試中怎麼考?

iPAS 初級考試(L11402)中,語音辨識的考點包括基本概念、核心技術(聲學模型、語言模型)、評估指標(詞錯誤率)和實際應用。常見題型有選擇題、簡答題和案例分析。

語音辨識和哪個術語最常被混淆?

語音辨識最常與語音合成混淆。語音辨識是將語音轉換為文字,而語音合成則是將文字轉換為語音。兩者功能相反,但都是語音處理的重要組成部分,應用於不同場景。

立即測驗

想測試你對 語音辨識 的掌握程度? 開始模擬考