---
title: "轉換器架構（Transformer）"
slug: transformer
language: zh-TW
source: https://aiterms.tw/terms/transformer
updated_at: 2026-04-29
tags: [深度學習, 自然語言處理, 神經網路]
ipas_term: true
---

# 轉換器架構（Transformer）

> **你有沒有發現，模型有時候不是一個字一個字看，而是一次看整段關係？**
> 你可以把轉換器架構想成「靠注意力機制理解整段資料關係」
> 它不一定像舊式 RNN 那樣一格一格往前走，而是能同時看多個 token 的互動
> 這讓它在語言、視覺和多模態任務都很強

### 容易混淆
> **轉換器架構 vs RNN**
> 轉換器能平行處理很多 token
> RNN 比較依賴前後順序逐步運算
> 最關鍵的區別：平行和循序
>
> **轉換器架構 vs CNN**
> 轉換器擅長全局關係
> CNN 擅長局部鄰近特徵
> 最關鍵的區別：關係範圍不同
>
> **轉換器架構 vs 注意力機制**
> 轉換器是整個架構
> 注意力機制是其中最核心的零件
> 最關鍵的區別：整體系統和子機制
>

### 記住這句就好
> 先看 token 彼此怎麼互相影響，再決定意思。

### 實際案例
> **翻譯**
> 模型同時看句子裡前後文，較容易判斷代名詞和語意對應
>
> **摘要**
> 長文摘要時，轉換器能快速抓到各段落之間的關係，再把重點濃縮出來
>

### 算法與應用
> | 自注意力 | 讓每個 token 看其他 token | 是核心機制 |
> | 編碼器 | 把輸入資料編成表示 | 常用在理解任務 |
> | 解碼器 | 把表示轉成輸出 | 常用在生成任務 |
> | 位置編碼 | 補上順序資訊 | 因為注意力本身不自帶順序 |

### 情境判斷
> **Q1（直覺題）：你想做長句翻譯，通常會想到它嗎？**
> → 會，因為它能同時看整段上下文，對長句特別有幫助。
>
> **Q2（判斷題）：如果資料很少，轉換器一定比舊模型好嗎？**
> → 不一定，模型大、資料少時，還是可能出現過擬合。
>
### 常見問題
> **Q：轉換器為什麼這麼重要？**
> 因為它把注意力機制推成了很多現代模型的主幹。
>
> **Q：它只用在 NLP 嗎？**
> 不是，影像、語音和多模態都常見。
>
> **Q：沒有位置資訊也能工作嗎？**
> 很難，因為模型需要知道 token 的先後和相對位置。
>

### 相關術語
> - **注意力機制**：這是理解轉換器的入口
> - **自注意力**：轉換器裡最常被單獨拿出來講的部分
> - **編碼器**：很多理解型模型會用它
> - **解碼器**：很多生成型模型會用它

---

來源：https://aiterms.tw/terms/transformer
快查頁：https://aiterms.tw/terms/transformer
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-transformer