自注意力是什麼？

Self-Attention — 自注意力的完整解釋

自注意力是一種機制，讓序列中的每個元素計算彼此關聯度，藉此捕捉序列內部的依賴關係

自注意力 vs 注意力機制

自注意力是同一序列內部互相看注意力機制是更廣的總稱最關鍵的區別是子集合還是總概念。

自注意力 vs RNN

自注意力可以同時看整個序列 RNN 是一步接一步處理最關鍵的區別是並行全看還是順序讀。

句子裡每個詞都能互相打分，這就是自注意力。

機器翻譯 模型在翻譯一個代名詞時，能回頭看前文的主詞，讓翻譯更準。

長文摘要 模型可以同時看標題、段落和關鍵句，而不是只記住前幾個字。

常見流程是把輸入變成 Query、Key、Value，再算權重做加權和。它能處理長距離依賴，但計算量通常是 O(n^2)。位置編碼很重要，因為注意力本身不會自動知道詞序。

Q1（直覺題）：如果一句話裡前後兩個詞相隔很遠，但模型還能把它們連起來，靠的常是什麼？

→ 常常是自注意力。

Q2（判斷題）：自注意力既然能看全句，就不需要位置資訊了嗎？

→ 不是。沒有位置編碼，模型通常不知道詞的先後順序。

常見問題

A：Query 是要找什麼，Key 是可被比對的索引，Value 是實際要取回的內容。

A：通常會 padding 成同長度，再搭配遮罩處理。

A：它把順序資訊加進模型，讓模型知道誰先誰後。