自注意力 是什麼?
Self-Attention — 自注意力 的完整解釋
自注意力是一種機制,讓序列中的每個元素計算彼此關聯度,藉此捕捉序列內部的依賴關係
容易混淆
自注意力 vs 注意力機制
自注意力是同一序列內部互相看 注意力機制是更廣的總稱 最關鍵的區別是子集合還是總概念。
自注意力 vs RNN
自注意力可以同時看整個序列 RNN 是一步接一步處理 最關鍵的區別是並行全看還是順序讀。
記住這句就好
句子裡每個詞都能互相打分,這就是自注意力。
實際案例
機器翻譯 模型在翻譯一個代名詞時,能回頭看前文的主詞,讓翻譯更準。
長文摘要 模型可以同時看標題、段落和關鍵句,而不是只記住前幾個字。
算法與應用
常見流程是把輸入變成 Query、Key、Value,再算權重做加權和。 它能處理長距離依賴,但計算量通常是 O(n^2)。 位置編碼很重要,因為注意力本身不會自動知道詞序。
情境判斷
Q1(直覺題):如果一句話裡前後兩個詞相隔很遠,但模型還能把它們連起來,靠的常是什麼?
→ 常常是自注意力。
Q2(判斷題):自注意力既然能看全句,就不需要位置資訊了嗎?
→ 不是。沒有位置編碼,模型通常不知道詞的先後順序。
相關術語
常見問題
Query、Key、Value 是什麼?
A:Query 是要找什麼,Key 是可被比對的索引,Value 是實際要取回的內容。
自注意力怎麼處理不同長度序列?
A:通常會 padding 成同長度,再搭配遮罩處理。
位置編碼做什麼?
A:它把順序資訊加進模型,讓模型知道誰先誰後。