iPAS AI 應用規劃師初級　科目一　人工智慧基礎概論

設計公司要 AI 學習既有圖像風格再產生新圖，選哪種模型？

原題 10

某設計公司導入生成式 AI（Generative AI）工具，用於自動產生產品概念圖與風格草圖。為了讓系統能依據既有圖像資料產生具有變化且風格一致的新圖像，模型必須具備學習資料特性並生成新樣本的能力。下列哪一種模型技術或方法最符合上述需求？

白話

某設計公司導入生成式 AI，用來自動產生產品概念圖與風格草圖。他們希望系統能依據既有圖像資料，產生出有變化但風格一致的新圖像，因此模型必須具備學習資料特性並生成新樣本的能力。

問你：哪一種模型技術或方法最符合這個需求？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

要學習既有圖像特性並生成新樣本，用的是隱變量自編碼器（Variational Autoencoder, VAE）：它學習圖像的潛在分佈，可以從中取樣生成風格一致但有變化的新圖像。

02　情境

先感受問題：設計師有 500 張品牌風格圖，想讓 AI 再生 1000 張

假設你是「視覺創研」設計公司的 AI 技術顧問。公司有一批品牌客戶的設計稿：500 張風格一致的產品草圖（同一個品牌的色調、線條風格、構圖邏輯）。

設計師的需求：「我不想每次都從零開始畫，我想讓 AI 學習這批圖的風格，然後自動幫我生成新的草圖，風格要和原來一致，但每張都要有些變化，不要完全一樣。」

這個需求的技術本質是：模型要理解這 500 張圖的「內在規律」（色彩分佈、線條特性、構圖邏輯），再利用這些規律「創作」出新的圖像，而不只是複製已有的圖。

這正是生成式模型（Generative Model）的使用場景，VAE 是其中最適合「學習分佈後採樣生成」的代表。

03　對照

分類模型能「生成」新圖像嗎？

在「視覺創研」評估各種方法之前，有幾種直覺上的嘗試都不奏效：

直接複製現有圖：加了一點隨機噪音的複製，不算真正學習風格，設計師一眼就看出「這跟原圖幾乎一樣」
分類模型（隨機森林）：可以判斷「這張圖是不是這個品牌風格」，但無法反向「生成符合這個風格的新圖」。分類是判斷，不是創作
KNN 模型：找到最相似的幾張原圖混合輸出，結果是「拼接感」很強，像把幾張圖疊在一起，不像真正的創作
規則系統：手工定義「品牌色是藍色、線條要細、構圖要留白」，但規則很難覆蓋所有情況，新場景就不知道怎麼辦
普通自動編碼器（AE）：能壓縮圖像到潛在空間，但潛在空間不是連續分佈的，隨機取樣出來的新圖像品質很差，充滿噪點

04　解法

VAE 怎麼學習分佈並生成新圖像

「視覺創研」採用 VAE 之後，流程變成這樣：

第一步：學習「圖像的意義」。VAE 的編碼器（Encoder）把每張圖像壓縮成一個「潛在向量」（Latent Vector），這個向量代表圖像的本質：色調在空間中的位置、線條的粗細程度、構圖的疏密感。

關鍵差異：連續的潛在空間。VAE 和普通自動編碼器最大的差別：VAE 學習的潛在空間是連續分佈的（對應一個高斯分佈），這意味著在潛在空間裡，相似風格的圖像彼此相鄰，空間是「平滑」的，可以在中間取樣。

第二步：生成新圖像。VAE 的解碼器（Decoder）可以從潛在空間隨機取樣一個點，然後把這個點「解碼」成一張新圖像。取樣的位置不同，生成的圖像就有變化，但因為都在同一個風格分佈裡，整體風格保持一致。

這就是選項 A 為什麼正確：VAE 學習圖像的潛在分佈（Latent Distribution），從中取樣生成「有變化且風格一致」的新樣本。

技術版：VAE 在生成式 AI 中的位置

VAE（Variational Autoencoder，隱變量自編碼器）是生成式模型（Generative Model）的一種，屬於深度學習的分支。

VAE 的兩個核心組件：

編碼器（Encoder）：把輸入（如圖像）壓縮到低維潛在空間，輸出的不是一個固定向量，而是一個機率分佈的參數（均值和方差），讓潛在空間是連續且可取樣的
解碼器（Decoder）：從潛在空間取樣一個向量，把它解碼回原始維度（生成圖像）

VAE vs. 普通 AE（Autoencoder）：普通 AE 的潛在空間是「點」，不同圖像的潛在向量之間可能有大量空隙，從空隙取樣出來的結果品質差。VAE 用機率分佈（高斯）填滿潛在空間，任何位置取樣出來的結果都有意義。

生成式模型的全貌：VAE 是生成式模型家族的一員，其他成員還有 GAN（生成對抗網路，更清晰但訓練不穩定）、Diffusion Model（擴散模型，Stable Diffusion 的基礎，目前圖像生成主流）、Flow-based Model。VAE 在概念理解和解釋性上最清晰，是入門生成式 AI 的重要起點。

為什麼出題者要考這題：生成式 AI 是近年最熱門的應用，AI 規劃師要能判斷哪種場景用哪類模型。VAE、GAN、Diffusion Model 都是圖像生成的重要方法，初級考試聚焦在識別「生成式模型 vs. 判別式模型」的基本區別。

05　陷阱

為什麼其他選項是錯的

B隨機森林（Random Forest）

字面在說什麼

集成多棵決策樹，靠多數投票做分類或迴歸預測，是監督式學習的代表算法。

為什麼不對

隨機森林是「判別式模型（Discriminative Model）」：輸入一張圖，輸出一個分類或數值。它無法「生成」新圖像，更無法學習圖像的風格分佈後取樣創作。隨機森林只能判斷，不能創作。

誰會選錯

聽說隨機森林很強大、什麼問題都能解的人。隨機森林確實在結構化數據的分類迴歸問題上很強，但對圖像生成這種非結構化生成任務完全不適用。

CK-近鄰演算法（K-Nearest Neighbors, KNN）

字面在說什麼

找到訓練集中最相似的 K 個樣本，依多數決或平均做預測，是一種惰性學習（Lazy Learning）算法。

為什麼不對

KNN 只能輸出「已有樣本的混合」，無法真正生成新的圖像。找到 5 張最相似的設計圖，輸出的是這 5 張的像素平均，結果是模糊的疊影，不是「有變化且風格一致的新圖像」。

誰會選錯

覺得「找相似的圖」等於「生成新圖」的人。生成的本質是創作：從學習到的分佈中取樣出訓練集中不存在的新樣本，KNN 做不到這件事。

D貝氏網路（Bayesian Network）

字面在說什麼

用有向無環圖表示變數之間的條件機率關係，用於機率推論和因果分析。

為什麼不對

貝氏網路是機率推論工具，擅長回答「如果已知 A，B 的機率是多少」這類問題。雖然理論上可以做生成，但實際上無法有效建模高維圖像數據（每個像素都是一個變數，百萬像素的圖像根本無法用貝氏網路建模）。它不是處理圖像生成的工具。

誰會選錯

知道貝氏網路能建模「不確定性」，以為它跟 VAE 的機率概念類似的人。雖然兩者都涉及機率，但貝氏網路不是深度學習方法，也不適合圖像這類高維數據的生成任務。

06　變形

同個考點下次怎麼變形

變形 1

VAE 和 GAN 有什麼差別？

直覺

兩個都是生成式模型，用哪個？

答案

VAE（變分自編碼器）：訓練穩定、生成圖像較模糊，適合需要理解潛在空間結構的應用。GAN（生成對抗網路）：訓練困難但生成圖像更清晰真實，有模式崩塌（Mode Collapse）的風險。現代圖像生成多用 Diffusion Model（如 Stable Diffusion），它結合了兩者的優點。初級考試重點是能區分「生成式模型 vs. 判別式模型」。

變形 2

生成式模型和判別式模型的根本差別是什麼？

直覺

「生成式」這個詞具體指什麼？

答案

判別式模型：學習「輸入到輸出的映射」，回答「這張圖屬於哪個類別」，代表：隨機森林、SVM、邏輯迴歸。生成式模型：學習「數據的分佈」，能從這個分佈中取樣生成新數據，回答「能不能生成一張符合這個分佈的新圖」，代表：VAE、GAN、Diffusion Model。

變形 3

VAE 的「隱變量（Latent Variable）」是什麼意思？

直覺

VAE 的全名裡有「Variational」和「隱變量」，這代表什麼？

答案

隱變量（Latent Variable）是模型內部的低維表示，對應圖像的「本質特性」。以臉部圖像為例，隱變量可能代表「笑臉程度、臉部朝向、光線角度」等我們可以解釋的因素。VAE 學習這些隱變量的機率分佈，在分佈中取樣生成新的臉部圖像，改變取樣的位置就能得到「不同程度的笑臉」。

變形 4

如果要生成「完全寫實的人臉照片」，VAE 夠用嗎？

直覺

VAE 能生成非常真實的圖像嗎？

答案

VAE 生成的圖像通常較模糊，無法達到「完全寫實」的效果。追求高品質真實感的圖像生成，目前業界主流是 Diffusion Model（如 Stable Diffusion、DALL-E 底層技術）。VAE 的優勢在於訓練穩定、潛在空間有意義，適合需要可解釋性或風格控制的場景，不是追求絕對真實感的最佳選擇。

變形 5

自動編碼器（Autoencoder）和 VAE 有什麼差別？

直覺

普通的自動編碼器不也可以壓縮和重建圖像嗎？

答案

普通 AE：潛在空間是「點」，每個輸入對應一個固定的潛在向量。取樣兩個潛在點之間的位置，可能解碼出毫無意義的圖像（因為中間可能是空隙）。VAE：潛在空間是「分佈」，學習每個輸入對應的均值和方差，確保空間是連續且可取樣的，任何位置取樣出來都有意義。生成能力上，VAE 遠優於普通 AE。

07　延伸

想再往下看，這 5 個

變分自編碼器（Variational Autoencoder）學習數據的潛在分佈並取樣生成新樣本，能產生風格一致的變化圖像，本題正解
生成對抗網路（Generative Adversarial Network）生成器與判別器相互對抗，圖像品質高但訓練不穩定，是 VAE 最常見的比較對象
擴散模型（Diffusion Model）目前圖像生成的主流技術，透過逐步去噪生成高品質圖像，是 VAE 和 GAN 之後的新一代方法
潛在空間（Latent Space）VAE 的核心機制：高維圖像在此低維連續空間中表示，取樣後解碼即可生成新圖像
生成式 AI（Generative AI）本題情境的上位概念，涵蓋 VAE、GAN、Diffusion Model 等能生成新內容的模型技術族群