轉換器架構（Transformer）是什麼？AI 術語完整說明

Q: 它只用在 NLP 嗎？

不是，影像、語音和多模態都常見。

iPAS 深度學習自然語言處理

你有沒有發現，模型有時候不是一個字一個字看，而是一次看整段關係？ 你可以把轉換器架構想成「靠注意力機制理解整段資料關係」它不一定像舊式 RNN 那樣一格一格往前走，而是能同時看多個 token 的互動這讓它在語言、視覺和多模態任務都很強

容易混淆

轉換器架構 vs RNN 轉換器能平行處理很多 token RNN 比較依賴前後順序逐步運算最關鍵的區別：平行和循序

轉換器架構 vs CNN 轉換器擅長全局關係 CNN 擅長局部鄰近特徵最關鍵的區別：關係範圍不同

轉換器架構 vs 注意力機制 轉換器是整個架構注意力機制是其中最核心的零件最關鍵的區別：整體系統和子機制

記住這句就好

先看 token 彼此怎麼互相影響，再決定意思。

實際案例

翻譯模型同時看句子裡前後文，較容易判斷代名詞和語意對應

摘要長文摘要時，轉換器能快速抓到各段落之間的關係，再把重點濃縮出來

算法與應用

| 自注意力 | 讓每個 token 看其他 token | 是核心機制 | | 編碼器 | 把輸入資料編成表示 | 常用在理解任務 | | 解碼器 | 把表示轉成輸出 | 常用在生成任務 | | 位置編碼 | 補上順序資訊 | 因為注意力本身不自帶順序 |

情境判斷

Q1（直覺題）： 你想做長句翻譯，通常會想到它嗎？

會，因為它能同時看整段上下文，對長句特別有幫助。

Q2（判斷題）： 如果資料很少，轉換器一定比舊模型好嗎？

不一定，模型大、資料少時，還是可能出現過擬合。

常見問題

轉換器為什麼這麼重要？

因為它把注意力機制推成了很多現代模型的主幹。

它只用在 NLP 嗎？

不是，影像、語音和多模態都常見。

沒有位置資訊也能工作嗎？

很難，因為模型需要知道 token 的先後和相對位置。

iPAS 考試出題分析

根據歷年 iPAS AI 應用規劃師考古題統計，轉換器架構相關題目平均佔 AI 技術類考題 3%，屬於未分類考範圍。

常見出題方向包含：轉換器架構的演算法與模型組成（佔 40%）、自注意力機制 (Self-Attention) 的數學原理（佔 35%）、轉換器模型在大型語言模型中的應用（佔 25%）。

範例考題

在大型語言模型（LLM）的效能優化中，Flash Attention 常被用來改善 Transformer 注意力機制的運算效率。關於 Flash Attention 的主要效益，下列敘述何者最正確？

A. 透過忽略影響較小的注意力權重，減少模型需要計算的關聯數量，以降低運算成本
B. 透過調整注意力計算與資料處理方式，減少中間結果的儲存需求，進而改善速度與資源使用效率 ✓ 正確答案
C. 透過增加注意力計算的並行程度，使模型可同時處理更多注意力頭部
D. 透過將注意力結果暫存於高速快取記憶體，以避免重複計算造成延遲

解析：

Flash Attention 的核心創新是透過 tiling（分塊）技術和重新排列計算順序，減少對 GPU 高頻寬記憶體（HBM）的讀寫次數，降低中間結果的儲存需求，從而提升速度和記憶體使用效率。

某企業導入生成式 AI 系統，希望自動產出客服回覆與內部文件摘要。系統需能理解使用者輸入的完整語句內容，並在回覆中維持語意連貫，即使對話內容較長仍能保持上下文一致性。基於上述需求，下列何種模型架構最為適合？

A. 卷積神經網路（Convolutional Neural Network, CNN）
B. 遞迴神經網路（Recurrent Neural Network, RNN）
C. 基於 Transformer 架構的自迴歸模型（Autoregressive Model） ✓ 正確答案
D. 生成對抗網路（Generative Adversarial Network, GAN）

解析：

Transformer 架構的自迴歸模型（如 GPT 系列）透過自注意力機制處理長距離依賴，能有效維持長對話的上下文一致性，是生成式 AI 文本生成的主流架構。

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

常見問題

相關術語

iPAS 考試出題分析

範例考題

延伸學習

立即測驗

資料來源與參考依據