iPAS AI 應用規劃師初級　科目二　生成式 AI 應用與規劃

Encoder-Decoder 跟 Decoder-only 架構，核心差在哪裡？

原題 35

在生成式 AI 文字生成模型設計中，Encoder-Decoder 與 Decoder-only 為常見架構。下列何者最能正確說明兩者在資訊處理與生成機制上的核心差異？

白話

生成式 AI 文字生成模型有兩種常見架構：Encoder-Decoder 和 Decoder-only。這兩種架構處理資訊的方式不同，生成文字的機制也不同。

問你：Encoder-Decoder 與 Decoder-only 在資訊處理和生成機制上，核心差異是什麼？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

Encoder-Decoder 把「理解輸入」和「生成輸出」分成兩個專門模組各司其職；Decoder-only 用單一模型同時讀懂上下文並生成內容，GPT 系列就是 Decoder-only 的代表。

02　情境

先感受問題：翻譯員和對話者，工作方式有什麼不同？

翻譯員小敏在翻譯一篇文章時，她的工作是這樣的：先把整篇中文文章「完整讀完、理解透徹」，在腦海中形成對全文的理解，然後才開始「逐句輸出」英文版本。理解和輸出是兩個分開的動作。

另一邊，客服助理大偉在跟客戶聊天時，他的工作不同：他一邊看客戶打過來的訊息，一邊已經在心裡組織回覆，是「邊讀邊生成」，沒有一個清楚的「先讀完再說」的分界。

這兩種工作模式，正好對應 Encoder-Decoder 和 Decoder-only 的差異：翻譯員模式 = Encoder-Decoder（先理解再生成，兩個階段清楚分開）；客服模式 = Decoder-only（上下文理解和生成在同一個過程中進行）。

03　對照

只有 Encoder-Decoder 的時代，哪些任務做得到哪些做不好？

Encoder-Decoder 擅長的任務：翻譯（輸入一種語言，輸出另一種語言）、摘要（輸入長文，輸出短摘要）、問答（輸入問題+文章，輸出答案）。這些都是「輸入和輸出是不同形式」的任務，適合雙階段架構
Encoder-Decoder 不擅長的任務：開放式對話生成、長文寫作、程式碼生成。這些任務的輸入和輸出是連續的，沒有清楚的輸入邊界，強迫分成兩個階段反而不自然
Decoder-only 出現的背景：GPT 系列的成功展示，對於「接著上文繼續寫下去」這類自回歸（Autoregressive）生成任務，單一 Decoder 模型能力很強，不需要先「讀完全文」再生成
兩種架構的應用分化：T5、BART、Flan-T5 是 Encoder-Decoder；GPT 系列、LLaMA、Claude、Mistral 是 Decoder-only
不是誰更好，是誰更適合：架構選擇取決於任務類型，不是 Decoder-only 就一定比 Encoder-Decoder 好

04　解法

兩種架構的核心差異是什麼

Encoder-Decoder 的資訊處理方式：Encoder 先對輸入序列（如一段中文）進行雙向理解，把整個輸入壓縮成一個「語意表示」；然後 Decoder 拿著這個語意表示，從頭開始逐字生成輸出（如英文翻譯）。輸入理解和內容生成是兩個有界限的獨立階段。

Decoder-only 的資訊處理方式：沒有分開的 Encoder，整個模型只有一個 Decoder。當你給它一段文字（Prompt），它用自回歸的方式一個字一個字預測「下一個字是什麼」，在生成的過程中同時處理對上文的理解和下文的生成，兩件事同時在一個模型裡完成。

這就是選項 B 講的：Encoder-Decoder 區分輸入理解與內容生成階段，Decoder-only 以單一模型同時處理上下文與生成。

選項 A 說的「編碼與解碼階段處理序列、單一模型完成處理」也在描述這個差異，但表述上比 B 更模糊。B 更精確地點出了「輸入理解 vs. 生成」的功能分工，是更準確的描述。

技術版：兩種架構在生成式 AI 發展史中的位置

這兩種架構都源自 2017 年 Google 提出的 Transformer 架構，只是選擇了不同的組件：

Encoder-Decoder（完整 Transformer）：同時使用編碼器（雙向注意力）和解碼器（單向 + 跨注意力），代表模型有 T5、BART、mT5，擅長需要「理解後轉換」的任務
Decoder-only（GPT 架構）：只使用解碼器（單向因果注意力），每次生成時只能看到之前的 token，代表模型有 GPT 系列、LLaMA、Claude，擅長自回歸文字生成
Encoder-only（BERT 架構）：只使用編碼器，不生成文字，適合分類、情感分析等理解任務，這題沒考但要知道存在

為什麼 Decoder-only 成為生成式 AI 的主流：Decoder-only 架構在 Scaling Law（更多參數 + 更多資料 → 更強能力）下表現特別好，GPT-3 的成功驗證了這個路線，此後大多數大型語言模型都採用 Decoder-only。

為什麼出題者要考這題：AI 應用規劃師需要理解不同模型架構的特性，才能在選用模型時做出正確判斷。例如翻譯任務選 Encoder-Decoder 架構的模型可能更精準，開放對話選 Decoder-only 模型更合適。

05　陷阱

為什麼其他選項是錯的

AEncoder-Decoder 透過編碼與解碼階段處理序列，Decoder-only 則以單一模型完成處理

字面在說什麼

說 Encoder-Decoder 有編碼和解碼兩個階段，Decoder-only 只用一個模型。

為什麼不對

A 的描述本身沒有錯誤，但表述不夠精確。「編碼與解碼階段」只說明了架構結構，沒有點出功能上的核心差異：Encoder 負責「輸入理解」、Decoder 負責「內容生成」這個分工才是最重要的。B 的描述更準確地說明了兩者在資訊處理功能上的差異，考試要選「最能正確說明核心差異」的，所以 B 比 A 更好。

誰會選錯

讀到「有道理」就選的人，沒有比較 A 和 B 哪個更精確。考「最能正確說明」時，要找最準確的描述，而不是找「沒有錯誤的」描述。

CDecoder-only 架構主要依賴外部知識檢索，Encoder-Decoder 則不需要

字面在說什麼

說 Decoder-only 模型需要外部知識檢索（如 RAG），Encoder-Decoder 不需要。

為什麼不對

這個描述完全錯誤。外部知識檢索（RAG）是應用層的架構選擇，與模型本身是 Encoder-Decoder 還是 Decoder-only 無關。兩種架構都可以搭配或不搭配 RAG 使用。這個選項把「外部知識整合策略」跟「模型架構」混淆了。

誰會選錯

把 RAG（外部檢索）和 Decoder-only 架構印象中連結在一起的人。RAG 是應用設計模式，不是架構本身的特性。

DEncoder-Decoder 架構僅適用於翻譯任務，Decoder-only 架構才適合對話任務

字面在說什麼

說 Encoder-Decoder 只能做翻譯，Decoder-only 只能做對話。

為什麼不對

「僅適用」的描述太絕對且錯誤。Encoder-Decoder 不只做翻譯，BART 是 Encoder-Decoder 架構但廣泛用於摘要、問答、文本修復等任務。Decoder-only 也不只做對話，GPT-4 被用在各種生成任務。架構的差異是「分工方式」，不是「只能做某一種任務」。

誰會選錯

只接觸過代表性例子（T5 翻譯、GPT 對話）就做了過度概括的人。「Encoder-Decoder 適合翻譯類任務」和「Encoder-Decoder 只能做翻譯」是不同的說法。

06　變形

同個考點下次怎麼變形

變形 1

GPT 系列模型屬於哪種架構？為什麼選擇這個架構？

直覺

GPT 是生成式 AI 的代表，它是哪種架構？

答案

Decoder-only。GPT 的設計目標是「給一段文字，接著生成下文」，這個自回歸生成任務不需要先理解完整輸入再生成輸出，Decoder-only 架構下單一模型就能同時做到上下文理解和文字生成，且在 Scaling 時效果特別好。

變形 2

為什麼翻譯任務特別適合 Encoder-Decoder 架構？

直覺

翻譯和對話都是文字輸入輸出，有什麼差別？

答案

翻譯需要先「完全理解」整個輸入句子的語意結構（因為句子語序可能差很多），才能開始生成目標語言。Encoder 的雙向注意力機制能對整個輸入序列做全面理解，再由 Decoder 生成對應輸出。這個「先理解再生成」的分工對翻譯品質有幫助。

變形 3

Encoder-only 架構（如 BERT）和 Encoder-Decoder 架構的差別是什麼？

直覺

有 Encoder-only、Encoder-Decoder、Decoder-only 三種，後兩個常被比較，那第一個呢？

答案

Encoder-only 只有編碼器，不生成文字，輸出的是文字的「向量表示」，適合分類、情感分析、命名實體識別等理解任務；Encoder-Decoder 有兩個部分，能從輸入生成新的輸出文字，適合需要「輸出不同形式」的生成任務（翻譯、摘要）。

變形 4

對話任務為什麼更適合 Decoder-only，而不是 Encoder-Decoder？

直覺

對話有輸入（用戶問）有輸出（AI 答），跟翻譯差不多，為什麼架構選擇不同？

答案

對話的「輸入」和「輸出」是連續的上下文流，不是像翻譯那樣有清楚界限的輸入輸出對。對話需要模型能「接著上文繼續說」，這正是 Decoder-only 自回歸生成的強項。而且多輪對話的歷史記錄可以直接串接進 Prompt，Decoder-only 架構能自然處理這種形式。

變形 5

AI 規劃師在選用語言模型時，應如何根據任務類型選擇架構？

直覺

不同任務選不同架構，有沒有簡單的判斷規則？

答案

簡單判斷：輸入和輸出是「不同形式的語意映射」（翻譯、摘要）用 Encoder-Decoder；輸入和輸出是「連續文字流」的生成任務（對話、寫作、程式生成）用 Decoder-only；只需要「理解分類、不生成文字」（情感分析、文本分類）用 Encoder-only。現代大型模型多數是 Decoder-only，因為它在 Scaling 效果最好。

07　延伸

想再往下看，這 5 個

轉換器架構（Transformer）2017 年 Google 提出的注意力機制架構，Encoder-Decoder 與 Decoder-only 都是它的變體，是本題兩種架構的共同基礎
編碼器（Encoder）Transformer 中負責對輸入序列做雙向理解、壓縮語意表示的模組，Encoder-Decoder 架構的「理解輸入」階段由此完成
解碼器（Decoder）Transformer 中負責逐字生成輸出的模組，Decoder-only 架構用單一解碼器同時處理上下文理解與文字生成
注意力機制（Attention Mechanism）讓模型在處理每個 token 時關注序列中其他相關位置的機制，Encoder 的雙向注意力與 Decoder 的因果注意力是本題核心差異的技術根源
因果語言模型（Causal Language Model）Decoder-only 的訓練範式，每個位置只能看到左側 token，自回歸逐字生成，是 GPT 系列的核心設計