---
title: "自注意力（Self-Attention）"
slug: self-attention
language: zh-TW
source: https://aiterms.tw/terms/self-attention
updated_at: 2026-04-29
tags: [深度學習, 自然語言處理, 神經網路]
ipas_term: false
---

# 自注意力（Self-Attention）

> **你讀一句話時，會不會自然把注意力放到真正有關的字上？**
>
> 你可以把自注意力想成句子裡每個詞都互相看一眼，再決定誰對誰最重要。
>
> 它重要是因為 Transformer 之類的模型，靠的就是這種全局關聯能力。
>
> 你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

### 容易混淆

> **自注意力 vs 注意力機制**
>
> 自注意力是同一序列內部互相看
> 注意力機制是更廣的總稱
> 最關鍵的區別是子集合還是總概念。
>
> **自注意力 vs RNN**
>
> 自注意力可以同時看整個序列
> RNN 是一步接一步處理
> 最關鍵的區別是並行全看還是順序讀。
>

### 記住這句就好

> 句子裡每個詞都能互相打分，這就是自注意力。

### 實際案例

> **機器翻譯**
> 模型在翻譯一個代名詞時，能回頭看前文的主詞，讓翻譯更準。
>
> **長文摘要**
> 模型可以同時看標題、段落和關鍵句，而不是只記住前幾個字。
>

### 算法與應用

> 常見流程是把輸入變成 Query、Key、Value，再算權重做加權和。
> 它能處理長距離依賴，但計算量通常是 O(n^2)。
> 位置編碼很重要，因為注意力本身不會自動知道詞序。

### 情境判斷

> **Q1（直覺題）：如果一句話裡前後兩個詞相隔很遠，但模型還能把它們連起來，靠的常是什麼？**
>
> → 常常是自注意力。
>
> **Q2（判斷題）：自注意力既然能看全句，就不需要位置資訊了嗎？**
>
> → 不是。沒有位置編碼，模型通常不知道詞的先後順序。
>

### 常見問題

> **Q：Query、Key、Value 是什麼？**
> A：Query 是要找什麼，Key 是可被比對的索引，Value 是實際要取回的內容。
>
> **Q：自注意力怎麼處理不同長度序列？**
> A：通常會 padding 成同長度，再搭配遮罩處理。
>
> **Q：位置編碼做什麼？**
> A：它把順序資訊加進模型，讓模型知道誰先誰後。
>

### 相關術語

> - **注意力機制**：自注意力和環狀注意力都屬於它的延伸。
> - **轉換器架構**：很多現代檢索和生成模型都建立在它上面。
> - **編碼器**：自注意力最常在編碼器裡出現。
> - **解碼器**：理解它，才能看懂序列到序列模型。
> - **自然語言處理**：自注意力和關係抽取都屬於它的核心範圍。

---

來源：https://aiterms.tw/terms/self-attention
快查頁：https://aiterms.tw/terms/self-attention
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-self-attention