iPAS AI 應用規劃師中級　科目一

VAE、GAN、擴散模型在跨模態生成上的根本差異是什麼？

原題 40

下列哪一項最正確地描述了 VAE（Variational Autoencoder）、GAN（Generative Adversarial Network）與擴散模型（Diffusion Model）在多模態潛在空間對齊（Latent Alignment）與生成策略上的根本差異？

白話

有三種主要的 AI 生成模型：VAE（變分自動編碼器）、GAN（生成對抗網路）、擴散模型（Diffusion Model）。它們都可以用來做「跨模態生成」，比如從文字生成圖片，或從圖片生成描述。

問你：這三個模型在「如何讓不同模態的資料在同一個空間對齊」以及「用什麼策略生成內容」上，根本的差別在哪裡？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

三種模型的根本差異在於「怎麼建立跨模態空間」和「怎麼生成」：VAE 用顯式的機率潛在空間對齊模態，語意結構好但畫質受限；GAN 用對抗訓練逼近分佈，畫質高但訓練不穩；擴散模型用條件化去噪一步步還原，兼具高保真和多樣性。

02　情境

先感受問題：三種模型各自想解決什麼

假設「創意科技公司」的 AI 設計師建明，要開發一個「文字轉產品圖」系統：輸入一段產品描述，輸出對應的產品圖像。他在考慮用哪種生成模型架構。

三種模型的核心運作邏輯：

VAE：把文字和圖像都壓縮到同一個「語意空間」（潛在空間），在那個空間裡對齊。優點：對齊清晰、語意結構好。缺點：壓縮過程資訊損失，生成的圖像常常稍微模糊。

GAN：訓練一個「生成器」和一個「鑑別器」，兩者互相博弈。生成器學習從文字描述「翻譯」成圖像，鑑別器學習分辨真假。優點：生成品質很高。缺點：兩個網路訓練容易失衡，常出現模式崩潰（Mode Collapse）。

擴散模型：從純雜訊開始，以文字描述為條件，一步步去噪「雕刻」出圖像。優點：生成品質高且穩定，多樣性好。代價：生成速度慢（需要多步去噪）。

建明的核心問題：三種模型的跨模態生成策略，從原理上有什麼本質不同？

03　對照

三種模型各自的設計哲學與限制

要理解根本差異，先理解每個模型的「設計哲學」：

VAE 的哲學：機率壓縮。VAE 把資料壓縮成一個機率分佈（均值和變異數），而不是一個點。這讓潛在空間是連續且有組織的，語意相近的概念在空間裡也相近。但「機率壓縮 + 重建」的過程本質上是有損的，解析度受限。
GAN 的哲學：博弈競爭。生成器和鑑別器互相競爭。鑑別器越強，生成器就必須生成越真實的結果。這讓 GAN 能生成非常銳利清晰的圖像。但博弈關係容易失衡，訓練不穩定是慢性病。
擴散模型的哲學：逆轉破壞。學習如何把「破壞」（加噪聲）的過程逆轉回來。以文字作為條件，讓去噪的方向受文字引導。因為是逐步精細化，既穩定又能保留多樣性。
三者共同的挑戰：跨模態對齊。要讓「一段文字」和「一張圖」在同一個空間裡有意義地對應，需要不同的技術策略。VAE 用共享潛在空間的機率建模，GAN 用對抗損失逼近分佈，擴散模型用條件化引導去噪。
不存在的描述：VAE 和 GAN 都不用馬爾可夫鏈（那是擴散模型的正向加噪過程）；KL 散度最小化是 VAE 的訓練目標之一，不是擴散模型的。

04　解法

選項 A 的三段描述，哪裡對

回到建明的選模型問題，選項 A 分三段精確描述了三種模型的機制：

VAE 那段：「透過顯式潛在變數建模實現跨模態對齊，適合捕捉整體語意結構但生成解析度有限」。正確。VAE 的關鍵是「顯式（Explicit）」：潛在空間 z 的機率分佈是明確建模的（均值 μ、變異數 σ），對齊是在這個有組織的空間裡完成的。生成解析度受壓縮限制，是業界公認的 VAE 缺點。

GAN 那段：「透過對抗損失在不同模態間學習分佈映射，生成品質高但穩定性差」。正確。對抗損失（Adversarial Loss）是 GAN 的核心機制，生成器和鑑別器互相對抗。訓練不穩定（模式崩潰、梯度消失）是 GAN 的經典缺點。

擴散模型那段：「以條件化噪聲反推（Conditional Denoising）方式實現高保真跨模態生成，兼具穩定性與多樣性」。正確。條件化去噪（文字條件引導去噪方向）是 Stable Diffusion、DALL-E 3 的核心。穩定性和多樣性都好，是擴散模型相對 GAN 的主要優勢。

這就是選項 A 講的：VAE 顯式潛在建模對齊語意、GAN 對抗損失逼近分佈、擴散模型條件化去噪兼具穩定與多樣。

技術版：三種模型的訓練目標與潛在空間機制

中級考試大概率會考程式碼跟公式，所以這部分你還是要學。但如果現在學起來很痛苦，可以先跳過，等讀完其他題目回頭再來。

本題沒有程式碼，但相關技術背景值得知道。

VAE 的訓練目標（ELBO 損失）：

ELBO = E[log p(x|z)] - KL(q(z|x) || p(z))
     = 重建損失 - KL 散度

重建損失：讓解碼出來的 x̂ 盡量接近原始 x。KL 散度：讓編碼器輸出的分佈 q(z|x) 接近先驗分佈 p(z)（通常是標準常態）。KL 散度讓潛在空間有組織、連續，這正是「顯式潛在變數建模」的體現。

GAN 的訓練目標（Minimax 博弈）：

min_G max_D V(D, G)
= E[log D(x)] + E[log(1 - D(G(z)))]

D（鑑別器）想最大化分辨真假的能力，G（生成器）想最小化被識破的機會。GAN 沒有顯式的潛在空間機率建模，是「隱式（Implicit）」生成。

擴散模型的訓練目標：

L = E_t,x0,ε [ ||ε - ε_θ(x_t, t, c)||² ]

ε 是真實加入的噪聲，ε_θ 是模型預測的噪聲，c 是條件（文字 Embedding）。模型學習「在時間步 t、給定條件 c 的情況下，預測 x_t 裡的噪聲是什麼」。條件 c 透過 Cross-Attention 注入 U-Net，實現條件化去噪。

跨模態對齊的實現方式差異：

VAE：用雙編碼器把兩個模態的資料壓縮到同一個潛在空間，損失函數同時最小化兩個模態的重建誤差和 KL 散度，讓空間裡的對應點靠近。
GAN：用條件輸入（如文字 Embedding）作為生成器的附加輸入，對抗損失迫使生成器輸出「在真實圖像分佈裡，且符合文字條件」的結果。
擴散模型：CLIP 等對比學習模型先做文字圖像對齊，再把對齊的文字 Embedding 透過 Cross-Attention 注入擴散模型的去噪過程，條件 c 直接引導去噪方向。

05　陷阱

為什麼其他選項是錯的

BVAE 與 Diffusion Model 均屬隱式生成架構，主要依賴對抗式訓練實現跨模態對齊

字面在說什麼

說 VAE 和擴散模型都屬於「隱式生成」，而且都用對抗式訓練。

為什麼不對

完全搞反了。VAE 是「顯式」生成：它明確建模潛在空間的機率分佈（均值和變異數）。使用「對抗式訓練」的是 GAN，不是 VAE 或擴散模型。GAN 才是隱式生成（沒有明確的潛在空間機率模型）。這個選項把三個模型的核心特徵都貼錯標籤了。

誰會選錯

對「顯式 vs. 隱式生成」和「對抗式訓練」的定義不清楚的考生。記住：VAE = 顯式機率建模；GAN = 對抗式訓練 = 隱式；擴散模型 = 條件化去噪，也不是對抗式訓練。

CVAE 與 GAN 均使用馬爾可夫鏈（Markov Chain）進行跨模態轉換；Diffusion Model 則透過 KL 散度最小化學習語意對應

字面在說什麼

說 VAE 和 GAN 都用馬爾可夫鏈，擴散模型用 KL 散度。

為什麼不對

整個對應關係全部貼錯。馬爾可夫鏈是擴散模型的正向加噪過程的數學基礎（每一步加噪只依賴前一步的狀態），不是 VAE 和 GAN 的機制。KL 散度最小化是 VAE 的訓練目標的一部分（讓潛在分佈接近先驗），不是擴散模型的。選項 C 就像把每道菜的食材和廚師都配對錯了。

誰會選錯

聽說過這些術語（馬爾可夫鏈、KL 散度）但不知道它們對應哪個模型的考生。需要記住的關聯：馬爾可夫鏈 → 擴散模型正向加噪；KL 散度 → VAE 訓練目標；對抗損失 → GAN。

D三者在多模態應用中皆依賴同一潛在表徵空間（Shared Latent Space），僅在解碼器結構不同而已

字面在說什麼

說三個模型其實都用同一個潛在空間，只是解碼器不一樣。

為什麼不對

這是完全錯誤的簡化。GAN 根本沒有顯式的潛在空間機率分佈，不存在所謂「共享潛在空間」。擴散模型的潛在空間（如果用了 VAE 壓縮的潛在擴散）和 VAE 的潛在空間性質也不同。三個模型的差異遠不止解碼器，整個訓練目標、生成策略、跨模態對齊方式都根本不同。選項 D 是嚴重的過度簡化。

誰會選錯

對三個模型有模糊的「感覺」但沒有深入理解各自機制的考生，看到「共享潛在空間」感覺有點道理就選。記住：GAN 沒有顯式的潛在機率空間，三個模型的生成策略從根本上就不同。

06　變形

同個考點下次怎麼變形

變形 1　邊界

CLIP 是 VAE、GAN 還是擴散模型？

直覺

CLIP 能把文字和圖像對齊，感覺是生成模型之一？

答案

CLIP（Contrastive Language-Image Pre-Training）都不是，它是對比學習模型（Contrastive Learning），不是生成模型。CLIP 訓練目標是讓配對的文字和圖像 Embedding 在向量空間裡靠近，不配對的推開。CLIP 本身不生成圖像，但它學到的文字 Embedding 品質極高，常被用作擴散模型的文字條件輸入（如 Stable Diffusion 就用 CLIP Text Encoder）。CLIP 是橋梁，不是生成模型。

變形 2　反例

GAN 能做到和擴散模型一樣穩定的訓練嗎？

直覺

改進訓練技術，GAN 應該可以變穩定？

答案

有很多改進方案（Wasserstein GAN、Spectral Normalization、Progressive Growing 等），確實提升了穩定性，但 GAN 的根本問題在於博弈訓練的本質：兩個網路必須同步進步，失衡就崩潰。WGAN 用 Wasserstein 距離取代 JS 散度，改善了梯度消失；但在極高解析度生成時，仍難以達到擴散模型的穩定性和多樣性。擴散模型的訓練是單一的監督式學習（預測噪聲），結構上比博弈訓練穩定。

變形 3　升級版

VAE 和擴散模型結合起來，是什麼架構？

直覺

兩個生成模型組合在一起？

答案

正是 Stable Diffusion 的核心架構：潛在擴散模型（Latent Diffusion Model，LDM）。流程：先用 VAE 的編碼器把圖像壓縮到潛在空間，在潛在空間裡跑擴散模型的去噪過程（比在像素空間跑快很多），最後用 VAE 的解碼器把潛在向量還原成圖像。這個組合兼顧了 VAE 的壓縮效率和擴散模型的生成品質，是當前最主流的高解析度圖像生成架構。

變形 4　跨領域

這三種模型在「文字生成文字」的 NLP 任務上，有對應的架構嗎？

直覺

VAE、GAN、擴散模型是圖像生成的，文字生成應該用 Transformer？

答案

都有 NLP 版本。VAE 在 NLP 叫做 Text VAE，把句子壓縮成潛在向量再重建，用於文字風格遷移。GAN 在 NLP 叫做 TextGAN 或 SeqGAN，但因為文字是離散的（不可微分），對抗訓練更困難，效果有限。擴散模型在 NLP 叫做 Diffusion Language Model（如 MDLM、MDLM），在離散 Token 空間做擴散，目前仍是研究前沿，尚未取代 GPT 系列的自回歸架構。GPT 這類模型其實是第四種流派：自回歸（Autoregressive），不屬於以上三種。

變形 5　評估指標

怎麼評估跨模態生成的品質？

直覺

圖像品質看 FID，文字圖像對齊看 CLIP Score，就夠了？

答案

這兩個是主要指標，但不夠全面。完整的跨模態生成評估包含：(1) FID（Fréchet Inception Distance）：生成圖像分佈和真實圖像分佈的距離，衡量視覺品質；(2) CLIP Score：文字和生成圖像的語意對齊程度；(3) IS（Inception Score）：衡量生成圖像的清晰度和多樣性；(4) Human Evaluation：人工評分，最終的品質標準，但成本高；(5) Precision & Recall（生成領域版）：分別衡量「生成品質高」和「生成多樣性夠」。

07　延伸

想再往下看，這 5 個

變分自編碼器（Variational Autoencoder）將資料編碼為連續機率分佈，潛在空間結構化且可插值；本題考的是 VAE、GAN、擴散模型在潛在空間對齊策略上的根本差異。
生成對抗網路（Generative Adversarial Network）生成器與鑑別器博弈提升生成品質，但訓練不穩定、易發生模式崩潰；在多模態對齊上通常需要額外的配對損失。
擴散模型（Diffusion Model）從純雜訊逐步去噪還原樣本，以文字 Embedding 條件化引導生成；兼具高品質、多樣性和穩定性，是目前多模態生成的主流架構。
潛在空間（Latent Space）模型將高維資料壓縮後的低維表示空間；三種生成模型在潛在空間的建模策略不同，決定了各自的多模態對齊能力和生成多樣性。
對比學習（Contrastive Learning）讓不同模態的相似配對在潛在空間靠近、不相似配對推遠，是 CLIP 等多模態對齊模型的核心訓練策略，與 VAE 的 KL 散度對齊方式形成對比。