潛在擴散模型(Latent Diffusion Model)是什麼?

潛在擴散模型(LDM)是一種生成式AI模型,透過在潛在空間中進行擴散和逆擴散過程,生成高解析度、高品質的圖像或其他資料。|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

潛在擴散模型(Latent Diffusion Model)是什麼? 生成式AI深度學習

生成圖片時,為什麼有些模型不用直接在像素上慢慢畫,而是先在更小的空間裡做?

你可以把它想成先在草圖上修改,再把草圖放大成成品,省很多計算。

潛在擴散模型(LDM)是一種生成式AI模型,透過在潛在空間中進行擴散和逆擴散過程,生成高解析度、高品質的圖像或其他資料。

容易混淆

一般擴散模型 一般擴散模型直接處理像素,LDM 先在潛在空間裡工作,速度更快。

GAN GAN 是對抗式生成,LDM 是擴散式生成,訓練方式和生成流程不同。

記住這句就好

先在草圖空間畫,再放大成圖。

實際案例

文字生圖 系統先把文字條件轉成潛在表示,再逐步去雜訊生成高品質圖片。

圖片編輯 做修圖或局部重繪時,LDM 可以在潛在空間裡調整內容,再還原成影像。

算法與應用

LDM 通常結合自編碼器和擴散過程,把高維像素壓到較小的 latent space,再在那裡做生成。這麼做能大幅降計算量,也讓高解析度生成更可行。

情境判斷

Q1(直覺題): 如果你現在遇到一個 文字生圖 的場景,這個概念會是第一個想到的工具嗎? → 看情況,但如果任務目標和這個概念的用途一致,就很可能是。核心還是先確認你要解決的是分類、分群、壓縮、檢索,還是最佳化。

Q2(判斷題): 如果你把它和 GAN 一起用,結果反而變不穩,通常該怎麼想? → 看情況。先檢查資料分布、特徵定義和模型假設是否相容,很多時候不是概念本身有問題,而是使用條件不對,像距離尺度沒對齊、標註規則不一致,或輸入格式不合。

常見問題

潛在擴散模型 最容易跟 一般擴散模型 混淆嗎?

一般擴散模型直接處理像素,LDM 先在潛在空間裡工作,速度更快。

什麼情況會用到 潛在擴散模型?

你可以把它想成先在草圖上修改,再把草圖放大成成品,省很多計算。 實務上只要你要處理和這個概念相符的任務,就會用到它。

初學者最常錯在哪裡?

GAN 是對抗式生成,LDM 是擴散式生成,訓練方式和生成流程不同。