VAE、GAN、擴散模型在跨模態生成上的根本差異是什麼?
下列哪一項最正確地描述了 VAE(Variational Autoencoder)、GAN(Generative Adversarial Network)與擴散模型(Diffusion Model)在多模態潛在空間對齊(Latent Alignment)與生成策略上的根本差異?
有三種主要的 AI 生成模型:VAE(變分自動編碼器)、GAN(生成對抗網路)、擴散模型(Diffusion Model)。它們都可以用來做「跨模態生成」,比如從文字生成圖片,或從圖片生成描述。
問你:這三個模型在「如何讓不同模態的資料在同一個空間對齊」以及「用什麼策略生成內容」上,根本的差別在哪裡?
一句話總結
三種模型的根本差異在於「怎麼建立跨模態空間」和「怎麼生成」:VAE 用顯式的機率潛在空間對齊模態,語意結構好但畫質受限;GAN 用對抗訓練逼近分佈,畫質高但訓練不穩;擴散模型用條件化去噪一步步還原,兼具高保真和多樣性。
先感受問題:三種模型各自想解決什麼
假設「創意科技公司」的 AI 設計師建明,要開發一個「文字轉產品圖」系統:輸入一段產品描述,輸出對應的產品圖像。他在考慮用哪種生成模型架構。
三種模型的核心運作邏輯:
GAN:訓練一個「生成器」和一個「鑑別器」,兩者互相博弈。生成器學習從文字描述「翻譯」成圖像,鑑別器學習分辨真假。優點:生成品質很高。缺點:兩個網路訓練容易失衡,常出現模式崩潰(Mode Collapse)。
擴散模型:從純雜訊開始,以文字描述為條件,一步步去噪「雕刻」出圖像。優點:生成品質高且穩定,多樣性好。代價:生成速度慢(需要多步去噪)。
建明的核心問題:三種模型的跨模態生成策略,從原理上有什麼本質不同?
三種模型各自的設計哲學與限制
要理解根本差異,先理解每個模型的「設計哲學」:
- VAE 的哲學:機率壓縮。VAE 把資料壓縮成一個機率分佈(均值和變異數),而不是一個點。這讓潛在空間是連續且有組織的,語意相近的概念在空間裡也相近。但「機率壓縮 + 重建」的過程本質上是有損的,解析度受限。
- GAN 的哲學:博弈競爭。生成器和鑑別器互相競爭。鑑別器越強,生成器就必須生成越真實的結果。這讓 GAN 能生成非常銳利清晰的圖像。但博弈關係容易失衡,訓練不穩定是慢性病。
- 擴散模型的哲學:逆轉破壞。學習如何把「破壞」(加噪聲)的過程逆轉回來。以文字作為條件,讓去噪的方向受文字引導。因為是逐步精細化,既穩定又能保留多樣性。
- 三者共同的挑戰:跨模態對齊。要讓「一段文字」和「一張圖」在同一個空間裡有意義地對應,需要不同的技術策略。VAE 用共享潛在空間的機率建模,GAN 用對抗損失逼近分佈,擴散模型用條件化引導去噪。
- 不存在的描述:VAE 和 GAN 都不用馬爾可夫鏈(那是擴散模型的正向加噪過程);KL 散度最小化是 VAE 的訓練目標之一,不是擴散模型的。
選項 A 的三段描述,哪裡對
回到建明的選模型問題,選項 A 分三段精確描述了三種模型的機制:
VAE 那段:「透過顯式潛在變數建模實現跨模態對齊,適合捕捉整體語意結構但生成解析度有限」。正確。VAE 的關鍵是「顯式(Explicit)」:潛在空間 z 的機率分佈是明確建模的(均值 μ、變異數 σ),對齊是在這個有組織的空間裡完成的。生成解析度受壓縮限制,是業界公認的 VAE 缺點。
GAN 那段:「透過對抗損失在不同模態間學習分佈映射,生成品質高但穩定性差」。正確。對抗損失(Adversarial Loss)是 GAN 的核心機制,生成器和鑑別器互相對抗。訓練不穩定(模式崩潰、梯度消失)是 GAN 的經典缺點。
擴散模型那段:「以條件化噪聲反推(Conditional Denoising)方式實現高保真跨模態生成,兼具穩定性與多樣性」。正確。條件化去噪(文字條件引導去噪方向)是 Stable Diffusion、DALL-E 3 的核心。穩定性和多樣性都好,是擴散模型相對 GAN 的主要優勢。
這就是選項 A 講的:VAE 顯式潛在建模對齊語意、GAN 對抗損失逼近分佈、擴散模型條件化去噪兼具穩定與多樣。
技術版:三種模型的訓練目標與潛在空間機制
中級考試大概率會考程式碼跟公式,所以這部分你還是要學。但如果現在學起來很痛苦,可以先跳過,等讀完其他題目回頭再來。
本題沒有程式碼,但相關技術背景值得知道。
VAE 的訓練目標(ELBO 損失):
ELBO = E[log p(x|z)] - KL(q(z|x) || p(z))
= 重建損失 - KL 散度
重建損失:讓解碼出來的 x̂ 盡量接近原始 x。KL 散度:讓編碼器輸出的分佈 q(z|x) 接近先驗分佈 p(z)(通常是標準常態)。KL 散度讓潛在空間有組織、連續,這正是「顯式潛在變數建模」的體現。
GAN 的訓練目標(Minimax 博弈):
min_G max_D V(D, G)
= E[log D(x)] + E[log(1 - D(G(z)))]
D(鑑別器)想最大化分辨真假的能力,G(生成器)想最小化被識破的機會。GAN 沒有顯式的潛在空間機率建模,是「隱式(Implicit)」生成。
擴散模型的訓練目標:
L = E_t,x0,ε [ ||ε - ε_θ(x_t, t, c)||² ]
ε 是真實加入的噪聲,ε_θ 是模型預測的噪聲,c 是條件(文字 Embedding)。模型學習「在時間步 t、給定條件 c 的情況下,預測 x_t 裡的噪聲是什麼」。條件 c 透過 Cross-Attention 注入 U-Net,實現條件化去噪。
跨模態對齊的實現方式差異:
- VAE:用雙編碼器把兩個模態的資料壓縮到同一個潛在空間,損失函數同時最小化兩個模態的重建誤差和 KL 散度,讓空間裡的對應點靠近。
- GAN:用條件輸入(如文字 Embedding)作為生成器的附加輸入,對抗損失迫使生成器輸出「在真實圖像分佈裡,且符合文字條件」的結果。
- 擴散模型:CLIP 等對比學習模型先做文字圖像對齊,再把對齊的文字 Embedding 透過 Cross-Attention 注入擴散模型的去噪過程,條件 c 直接引導去噪方向。
為什麼其他選項是錯的
BVAE 與 Diffusion Model 均屬隱式生成架構,主要依賴對抗式訓練實現跨模態對齊
說 VAE 和擴散模型都屬於「隱式生成」,而且都用對抗式訓練。
完全搞反了。VAE 是「顯式」生成:它明確建模潛在空間的機率分佈(均值和變異數)。使用「對抗式訓練」的是 GAN,不是 VAE 或擴散模型。GAN 才是隱式生成(沒有明確的潛在空間機率模型)。這個選項把三個模型的核心特徵都貼錯標籤了。
對「顯式 vs. 隱式生成」和「對抗式訓練」的定義不清楚的考生。記住:VAE = 顯式機率建模;GAN = 對抗式訓練 = 隱式;擴散模型 = 條件化去噪,也不是對抗式訓練。
CVAE 與 GAN 均使用馬爾可夫鏈(Markov Chain)進行跨模態轉換;Diffusion Model 則透過 KL 散度最小化學習語意對應
說 VAE 和 GAN 都用馬爾可夫鏈,擴散模型用 KL 散度。
整個對應關係全部貼錯。馬爾可夫鏈是擴散模型的正向加噪過程的數學基礎(每一步加噪只依賴前一步的狀態),不是 VAE 和 GAN 的機制。KL 散度最小化是 VAE 的訓練目標的一部分(讓潛在分佈接近先驗),不是擴散模型的。選項 C 就像把每道菜的食材和廚師都配對錯了。
聽說過這些術語(馬爾可夫鏈、KL 散度)但不知道它們對應哪個模型的考生。需要記住的關聯:馬爾可夫鏈 → 擴散模型正向加噪;KL 散度 → VAE 訓練目標;對抗損失 → GAN。
D三者在多模態應用中皆依賴同一潛在表徵空間(Shared Latent Space),僅在解碼器結構不同而已
說三個模型其實都用同一個潛在空間,只是解碼器不一樣。
這是完全錯誤的簡化。GAN 根本沒有顯式的潛在空間機率分佈,不存在所謂「共享潛在空間」。擴散模型的潛在空間(如果用了 VAE 壓縮的潛在擴散)和 VAE 的潛在空間性質也不同。三個模型的差異遠不止解碼器,整個訓練目標、生成策略、跨模態對齊方式都根本不同。選項 D 是嚴重的過度簡化。
對三個模型有模糊的「感覺」但沒有深入理解各自機制的考生,看到「共享潛在空間」感覺有點道理就選。記住:GAN 沒有顯式的潛在機率空間,三個模型的生成策略從根本上就不同。
同個考點下次怎麼變形
CLIP 是 VAE、GAN 還是擴散模型?
CLIP 能把文字和圖像對齊,感覺是生成模型之一?
CLIP(Contrastive Language-Image Pre-Training)都不是,它是對比學習模型(Contrastive Learning),不是生成模型。CLIP 訓練目標是讓配對的文字和圖像 Embedding 在向量空間裡靠近,不配對的推開。CLIP 本身不生成圖像,但它學到的文字 Embedding 品質極高,常被用作擴散模型的文字條件輸入(如 Stable Diffusion 就用 CLIP Text Encoder)。CLIP 是橋梁,不是生成模型。
GAN 能做到和擴散模型一樣穩定的訓練嗎?
改進訓練技術,GAN 應該可以變穩定?
有很多改進方案(Wasserstein GAN、Spectral Normalization、Progressive Growing 等),確實提升了穩定性,但 GAN 的根本問題在於博弈訓練的本質:兩個網路必須同步進步,失衡就崩潰。WGAN 用 Wasserstein 距離取代 JS 散度,改善了梯度消失;但在極高解析度生成時,仍難以達到擴散模型的穩定性和多樣性。擴散模型的訓練是單一的監督式學習(預測噪聲),結構上比博弈訓練穩定。
VAE 和擴散模型結合起來,是什麼架構?
兩個生成模型組合在一起?
正是 Stable Diffusion 的核心架構:潛在擴散模型(Latent Diffusion Model,LDM)。流程:先用 VAE 的編碼器把圖像壓縮到潛在空間,在潛在空間裡跑擴散模型的去噪過程(比在像素空間跑快很多),最後用 VAE 的解碼器把潛在向量還原成圖像。這個組合兼顧了 VAE 的壓縮效率和擴散模型的生成品質,是當前最主流的高解析度圖像生成架構。
這三種模型在「文字生成文字」的 NLP 任務上,有對應的架構嗎?
VAE、GAN、擴散模型是圖像生成的,文字生成應該用 Transformer?
都有 NLP 版本。VAE 在 NLP 叫做 Text VAE,把句子壓縮成潛在向量再重建,用於文字風格遷移。GAN 在 NLP 叫做 TextGAN 或 SeqGAN,但因為文字是離散的(不可微分),對抗訓練更困難,效果有限。擴散模型在 NLP 叫做 Diffusion Language Model(如 MDLM、MDLM),在離散 Token 空間做擴散,目前仍是研究前沿,尚未取代 GPT 系列的自回歸架構。GPT 這類模型其實是第四種流派:自回歸(Autoregressive),不屬於以上三種。
怎麼評估跨模態生成的品質?
圖像品質看 FID,文字圖像對齊看 CLIP Score,就夠了?
這兩個是主要指標,但不夠全面。完整的跨模態生成評估包含:(1) FID(Fréchet Inception Distance):生成圖像分佈和真實圖像分佈的距離,衡量視覺品質;(2) CLIP Score:文字和生成圖像的語意對齊程度;(3) IS(Inception Score):衡量生成圖像的清晰度和多樣性;(4) Human Evaluation:人工評分,最終的品質標準,但成本高;(5) Precision & Recall(生成領域版):分別衡量「生成品質高」和「生成多樣性夠」。
想再往下看,這 5 個
- 變分自編碼器(Variational Autoencoder)將資料編碼為連續機率分佈,潛在空間結構化且可插值;本題考的是 VAE、GAN、擴散模型在潛在空間對齊策略上的根本差異。
- 生成對抗網路(Generative Adversarial Network)生成器與鑑別器博弈提升生成品質,但訓練不穩定、易發生模式崩潰;在多模態對齊上通常需要額外的配對損失。
- 擴散模型(Diffusion Model)從純雜訊逐步去噪還原樣本,以文字 Embedding 條件化引導生成;兼具高品質、多樣性和穩定性,是目前多模態生成的主流架構。
- 潛在空間(Latent Space)模型將高維資料壓縮後的低維表示空間;三種生成模型在潛在空間的建模策略不同,決定了各自的多模態對齊能力和生成多樣性。
- 對比學習(Contrastive Learning)讓不同模態的相似配對在潛在空間靠近、不相似配對推遠,是 CLIP 等多模態對齊模型的核心訓練策略,與 VAE 的 KL 散度對齊方式形成對比。