自注意力(Self-Attention)是什麼?

自注意力是一種機制,讓序列中的每個元素計算彼此關聯度,藉此捕捉序列內部的依賴關係|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

自注意力(Self-Attention)是什麼? 深度學習自然語言處理

你讀一句話時,會不會自然把注意力放到真正有關的字上?

你可以把自注意力想成句子裡每個詞都互相看一眼,再決定誰對誰最重要。

它重要是因為 Transformer 之類的模型,靠的就是這種全局關聯能力。

你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。

容易混淆

自注意力 vs 注意力機制

自注意力是同一序列內部互相看 注意力機制是更廣的總稱 最關鍵的區別是子集合還是總概念。

自注意力 vs RNN

自注意力可以同時看整個序列 RNN 是一步接一步處理 最關鍵的區別是並行全看還是順序讀。

記住這句就好

句子裡每個詞都能互相打分,這就是自注意力。

實際案例

機器翻譯 模型在翻譯一個代名詞時,能回頭看前文的主詞,讓翻譯更準。

長文摘要 模型可以同時看標題、段落和關鍵句,而不是只記住前幾個字。

算法與應用

常見流程是把輸入變成 Query、Key、Value,再算權重做加權和。 它能處理長距離依賴,但計算量通常是 O(n^2)。 位置編碼很重要,因為注意力本身不會自動知道詞序。

情境判斷

Q1(直覺題): 如果一句話裡前後兩個詞相隔很遠,但模型還能把它們連起來,靠的常是什麼?

常常是自注意力。

Q2(判斷題): 自注意力既然能看全句,就不需要位置資訊了嗎?

不是。沒有位置編碼,模型通常不知道詞的先後順序。

常見問題

Query、Key、Value 是什麼?

A:Query 是要找什麼,Key 是可被比對的索引,Value 是實際要取回的內容。

自注意力怎麼處理不同長度序列?

A:通常會 padding 成同長度,再搭配遮罩處理。

位置編碼做什麼?

A:它把順序資訊加進模型,讓模型知道誰先誰後。