圖像生成(Image Generation)是什麼?

圖像生成是一種人工智慧技術,旨在從文字描述、其他圖像或隨機雜訊中創造出全新的、逼真的或風格化的圖像。|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

圖像生成(Image Generation)是什麼? 機器學習深度學習

你有沒有用一句描述,就讓 AI 畫出一張新圖片?

你可以把圖像生成想成把文字變成畫面。 它不是拿現成圖片分類,而是根據提示創造不存在的新圖,所以很適合做設計草稿和內容創作。

你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。

容易混淆

圖像生成 vs 圖像分類 分類是判斷圖是什麼 生成是創造新圖 最關鍵的區別是分析現有圖片,還是生成不存在的圖片

圖像生成 vs 文字生成圖像 文字生成圖像是圖像生成的一種 圖像生成還可以從雜訊、草圖或其他圖像出發 最關鍵的區別是應用方式,還是整體概念

記住這句就好

看描述,畫出不存在的圖。

實際案例

行銷草圖 設計師可以先用圖像生成做視覺草稿,再由人工修飾成正式素材。

遊戲素材 遊戲團隊常用圖像生成先產出場景或角色概念圖,省下大量初版繪圖時間。

算法與應用

現在常見的路線是擴散模型,效果穩定、細節也比較好。 不過圖像生成不代表真的理解世界,它更多是在學資料分布和風格。

情境判斷

Q1: 你想把一句產品描述變成海報草圖,會用什麼? → 圖像生成。

Q2: 你要從很多照片裡找出哪一張是貓,這還是圖像生成嗎? → 不是,這是圖像分類。

常見問題

圖像生成需要很多資料嗎?

通常需要,尤其是要學出穩定風格時。

可以控制風格嗎?

可以,提示和模型選擇都會影響結果。

它有什麼風險?

深偽、版權和偏見都是常見問題。

範例考題

某時尚品牌導入生成式 AI(Generative AI)技術,建立服裝設計輔助系統。系統需根據設計師輸入的風格條件,自動產生具有高度視覺品質、細節穩定且風格變化自然的服裝草圖。團隊特別重視生成結果的穩定性與多樣性控制能力。在此需求下,下列哪一種模型技術或方法較為適合?

  • A. 支援向量機(Support Vector Machine, SVM)
  • B. 生成對抗網路(Generative Adversarial Network, GAN)
  • C. 決策樹(Decision Tree)
  • D. 擴散模型(Diffusion Model) ✓ 正確答案

解析:

擴散模型(Diffusion Model)在圖像生成方面具有優秀的穩定性與多樣性控制能力,生成品質高且細節穩定。相較於 GAN 容易出現模式崩塌問題,擴散模型的訓練更穩定,生成結果品質更可控。

某設計公司導入生成式 AI(Generative AI)工具,用於自動產生產品概念圖與風格草圖。為了讓系統能依據既有圖像資料產生具有變化且風格一致的新圖像,模型必須具備學習資料特性並生成新樣本的能力。下列哪一種模型技術或方法最符合上述需求?

  • A. 隱變量自編碼器(Variational Autoencoder, VAE) ✓ 正確答案
  • B. 隨機森林(Random Forest)
  • C. K-近鄰演算法(K-Nearest Neighbors, KNN)
  • D. 貝氏網路(Bayesian Network)

解析:

VAE 是一種生成式模型,能學習資料的潛在分佈,並從中生成具有變化但風格一致的新樣本。它特別適合圖像生成任務,能在學習到的潛在空間中採樣產生新圖像。