轉換器架構 是什麼?
Transformer — 轉換器架構 的完整解釋
完全基於 Attention 機制的架構,不用 RNN 的循環結構,能平行處理整個序列
容易混淆
轉換器架構 vs RNN 轉換器能平行處理很多 token RNN 比較依賴前後順序逐步運算 最關鍵的區別:平行和循序
轉換器架構 vs CNN 轉換器擅長全局關係 CNN 擅長局部鄰近特徵 最關鍵的區別:關係範圍不同
轉換器架構 vs 注意力機制 轉換器是整個架構 注意力機制是其中最核心的零件 最關鍵的區別:整體系統和子機制
記住這句就好
先看 token 彼此怎麼互相影響,再決定意思。
實際案例
翻譯 模型同時看句子裡前後文,較容易判斷代名詞和語意對應
摘要 長文摘要時,轉換器能快速抓到各段落之間的關係,再把重點濃縮出來
算法與應用
| 自注意力 | 讓每個 token 看其他 token | 是核心機制 | | 編碼器 | 把輸入資料編成表示 | 常用在理解任務 | | 解碼器 | 把表示轉成輸出 | 常用在生成任務 | | 位置編碼 | 補上順序資訊 | 因為注意力本身不自帶順序 |
情境判斷
Q1(直覺題):你想做長句翻譯,通常會想到它嗎? → 會,因為它能同時看整段上下文,對長句特別有幫助。
Q2(判斷題):如果資料很少,轉換器一定比舊模型好嗎? → 不一定,模型大、資料少時,還是可能出現過擬合。
轉換器架構 在 iPAS 考試中的重點
根據歷年統計,轉換器架構 相關題目 平均佔 AI 技術類考題 3%, 屬於未分類考範圍。
常見出題方向:轉換器架構的演算法與模型組成(40%)、自注意力機制 (Self-Attention) 的數學原理(35%)、轉換器模型在大型語言模型中的應用(25%)。
相關術語
常見問題
轉換器為什麼這麼重要?
因為它把注意力機制推成了很多現代模型的主幹。
它只用在 NLP 嗎?
不是,影像、語音和多模態都常見。
沒有位置資訊也能工作嗎?
很難,因為模型需要知道 token 的先後和相對位置。
資料來源
- iPAS AI 應用規劃師評鑑內容範圍參考(115.02) — 經濟部產業人才能力鑑定