LDM（潛在擴散模型）是什麼？完整定義與解說

Q: 什麼情況會用到 潛在擴散模型？

你可以把它想成先在草圖上修改，再把草圖放大成成品，省很多計算。 實務上只要你要處理和這個概念相符的任務，就會用到它。

生成圖片時，為什麼有些模型不用直接在像素上慢慢畫，而是先在更小的空間裡做？

你可以把它想成先在草圖上修改，再把草圖放大成成品，省很多計算。

潛在擴散模型(LDM)是一種生成式AI模型，透過在潛在空間中進行擴散和逆擴散過程，生成高解析度、高品質的圖像或其他資料。

容易混淆

一般擴散模型 一般擴散模型直接處理像素，LDM 先在潛在空間裡工作，速度更快。

GAN GAN 是對抗式生成，LDM 是擴散式生成，訓練方式和生成流程不同。

記住這句就好

先在草圖空間畫，再放大成圖。

實際案例

文字生圖 系統先把文字條件轉成潛在表示，再逐步去雜訊生成高品質圖片。

圖片編輯 做修圖或局部重繪時，LDM 可以在潛在空間裡調整內容，再還原成影像。

算法與應用

LDM 通常結合自編碼器和擴散過程，把高維像素壓到較小的 latent space，再在那裡做生成。這麼做能大幅降計算量，也讓高解析度生成更可行。

情境判斷

Q1（直覺題）： 如果你現在遇到一個文字生圖的場景，這個概念會是第一個想到的工具嗎？ → 看情況，但如果任務目標和這個概念的用途一致，就很可能是。核心還是先確認你要解決的是分類、分群、壓縮、檢索，還是最佳化。

Q2（判斷題）： 如果你把它和 GAN 一起用，結果反而變不穩，通常該怎麼想？ → 看情況。先檢查資料分布、特徵定義和模型假設是否相容，很多時候不是概念本身有問題，而是使用條件不對，像距離尺度沒對齊、標註規則不一致，或輸入格式不合。

常見問題

潛在擴散模型最容易跟一般擴散模型混淆嗎？

一般擴散模型直接處理像素，LDM 先在潛在空間裡工作，速度更快。

什麼情況會用到潛在擴散模型？

你可以把它想成先在草圖上修改，再把草圖放大成成品，省很多計算。實務上只要你要處理和這個概念相符的任務，就會用到它。

初學者最常錯在哪裡？

GAN 是對抗式生成，LDM 是擴散式生成，訓練方式和生成流程不同。

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

常見問題

相關術語

延伸學習

資料來源與參考依據