---
title: "語音辨識（Speech Recognition）"
slug: speech-recognition
language: zh-TW
source: https://aiterms.tw/terms/speech-recognition
updated_at: 2026-04-29
tags: [語音辨識, Speech Recognition, L11402, 聲學模型, 初級]
ipas_term: true
---

# 語音辨識（Speech Recognition）

> **你有沒有在你對手機說話，想把聲音變成文字或指令，發現只看表面常常不夠？**
>
> 你可以把它想成讓機器先聽懂你說了什麼，再把聲音轉成文字。
>
> 語音助理、字幕、會議轉錄都靠它把口語變成可處理的文字。
>
> 你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

### 容易混淆
> **語音合成**
> 語音辨識是「聽」的技術，把聲音變成文字。
> 語音合成是「說」的技術，把文字變成聲音。一個是把人的話讓機器懂，另一個是讓機器能用人的方式說話。
>
> 最關鍵的區別：先看它是在比意思、比結構，還是在做任務輸出。

### 記住這句就好
> 把聲音變文字，就是語音辨識。

### 實際案例
> 手機語音輸入把你的口述轉成訊息內容。
> 會議錄音轉文字，方便後續搜尋和摘要。

### 算法與應用
> 核心元件常包含聲學模型、語言模型和解碼器，現在也常用端到端深度學習架構。
> 評估常看詞錯誤率，因為一個字辨錯就可能影響整句意思。

### 情境判斷
> **Q1（直覺題）：** 你按住麥克風對手機說話，這就是語音辨識的典型應用嗎？
>
> → 是。把聲音轉成文字或指令，正是它的主場。
>
> **Q2（判斷題）：** 如果環境很吵、講話又重疊，準確率通常會怎樣？
>
> → 會下降。看情況，噪音和重疊語音都會讓辨識變難。

### iPAS 考題
> 出題方向： 常考基本定義、聲學模型與語言模型的分工、以及詞錯誤率這個評估指標。
> 題目： 語音辨識系統的主要目的是什麼？
> 答案： → 把人類語音轉換成機器可處理的文字或指令。

### 常見問題
> **Q：什麼是語音辨識？**
> 語音辨識是一種將人類語音轉換為機器可理解的文字或指令的技術，使電腦能夠聽懂並處理人類語言。它結合了聲學模型和語言模型，在人機交互中扮演重要角色。
>
> **Q：語音辨識在 iPAS 考試中怎麼考？**
> iPAS 初級考試（L11402）中，語音辨識的考點包括基本概念、核心技術（聲學模型、語言模型）、評估指標（詞錯誤率）和實際應用。常見題型有選擇題、簡答題和案例分析。
>
> **Q：語音辨識和哪個術語最常被混淆？**
> 語音辨識最常與語音合成混淆。語音辨識是將語音轉換為文字，而語音合成則是將文字轉換為語音。兩者功能相反，但都是語音處理的重要組成部分，應用於不同場景。

### 相關術語
> - **自然語言處理**：先懂 NLP 的整體範圍，才知道這個概念在文字任務裡扮演哪一段。
> - **機器學習**：很多應用的底層都離不開機器學習。
> - **深度學習**：Sigmoid 和 Softmax 都是深度學習裡最基本的輸出工具。
> - **循環神經網路**：語音和序列任務常先從它開始理解。
> - **長短期記憶網路**：語音辨識的傳統基礎模型之一。

---

來源：https://aiterms.tw/terms/speech-recognition
快查頁：https://aiterms.tw/terms/speech-recognition
外部參考：https://ipd.nat.gov.tw/ipas/certification/AIAP/news/ffdba0fcdbda40baadeef2a1bdc0230e
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-speech-recognition