---
title: "注意力機制（Attention Mechanism）"
slug: attention-mechanism
language: zh-TW
source: https://aiterms.tw/terms/attention-mechanism
updated_at: 2026-04-29
tags: [深度學習, 自然語言處理, 神經網路, 模型訓練]
ipas_term: true
---

# 注意力機制（Attention Mechanism）

> **你讀長句子時會先抓重點，神經網路能不能也學會這樣看？**
> 你可以把注意力機制想成一個會分配關注權重的系統，重要的位置會被看得更仔細。
> 它特別擅長處理長序列，因為模型不必平均看待每個位置。
>
> 你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

### 容易混淆

> **注意力機制 vs 自注意力？**
> 注意力機制：依任務動態調整關注權重
> 自注意力：序列內部自己互相比對的重要形式
> 最關鍵的區別：自注意力是注意力機制的一種
>
> **注意力機制 vs 池化？**
> 注意力機制：重點在分配焦點
> 池化：重點在壓縮資訊
> 最關鍵的區別：注意力是在挑重點，池化是在縮資料
>
> **注意力機制 vs 固定特徵提取？**
> 注意力機制：可以和 RNN、Transformer 等架構搭配
> 固定特徵提取：每個位置被同等對待
> 最關鍵的區別：前者會學會看誰重要，後者常是平均處理
### 記住這句就好

> 哪裡重要，就多看哪裡
### 實際案例

> **機器翻譯**
> 翻譯一句長句時，模型會對應到原句裡最相關的詞，避免只看最後幾個字
>
> **文件摘要**
> 摘要模型會先抓出標題、關鍵名詞與重複主題，把不重要的句子權重調低
### 算法與應用

> | 重點 | 你要看什麼 | 為什麼重要 |
> |---|---|---|
> | Query | 當前要找什麼 | 告訴模型現在在問哪個重點 |
> | Key/Value | 可被比較的內容 | 讓模型比對哪個位置該被重視 |
> | 權重 | 相對重要性 | 決定最後保留多少資訊 |
### 情境判斷

> **Q1：一段文字很長，模型只看最後一個 token，這比注意力機制更適合嗎？**
> → 通常不適合，因為前文資訊可能被忽略，注意力能把相關位置拉回來
>
> **Q2：注意力權重高，就代表那個位置一定是造成答案的真正原因嗎？**
> → 不一定，權重高只表示模型重視它，不等於已經證明因果關係
### iPAS 考題

> **Q：注意力機制的主要目的為何？**
> 讓模型在處理序列時，能動態調整不同位置的關注程度。
>
> **Q：自注意力和注意力機制有什麼關係？**
> 自注意力是注意力機制的一種，重點在序列內部元素彼此關聯。
### 常見問題

> **Q：注意力機制可以完全取代 RNN 嗎？**
> 在很多語言任務上可以，但是否取代要看計算成本、資料型態與模型設計。
>
> **Q：注意力一定比較準嗎？**
> 不一定。它很強，但仍要看任務、資料量與訓練方式。
>
> **Q：注意力只能用在文字嗎？**
> 不是，影像、音訊與多模態資料也常會用到注意力。
### 相關術語

> - **自注意力**：這是注意力機制最核心的變形
> - **轉換器架構**：Transformer 幾乎整套都建立在注意力上
> - **解碼器**：很多生成模型在解碼時會用到注意力

---

來源：https://aiterms.tw/terms/attention-mechanism
快查頁：https://aiterms.tw/terms/attention-mechanism
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-attention-mechanism