iPAS AI 應用規劃師初級　科目一　人工智慧基礎概論

服裝設計 AI 要穩定多樣，選哪個模型？

原題 21

某時尚品牌導入生成式 AI（Generative AI）技術，建立服裝設計輔助系統。系統需根據設計師輸入的風格條件，自動產生具有高度視覺品質、細節穩定且風格變化自然的服裝草圖。團隊特別重視生成結果的穩定性與多樣性控制能力。在此需求下，下列哪一種模型技術或方法較為適合？

白話

一個時尚品牌導入生成式 AI（Generative AI）來輔助服裝設計。設計師輸入風格條件，系統要自動產出視覺品質高、細節穩定且風格變化自然的服裝草圖。

這個系統特別強調生成結果的穩定性，以及對多樣性的控制能力。

問你：在這個需求條件下，哪一種模型技術或方法較為適合？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

服裝設計 AI 要求高品質、細節穩定、多樣性可控，擴散模型（Diffusion Model）是目前在圖像生成品質、穩定性和條件控制能力上最全面的技術，Stable Diffusion、DALL-E 3 都是此類模型的代表。

02　情境

先感受問題：設計師說「我要 100 件穩定的草稿」

「織夢時尚」品牌的創意總監謝美珍每季要設計 200 款服裝。她想用 AI 幫她快速生成草圖，但有明確要求：

輸入「波希米亞風格 + 夏季 + 棉麻材質」就要生成符合這個條件的草圖
一次生成 30 張，每一張都要細節清晰、不出現奇怪的扭曲或缺手缺腳
30 張之間風格一致但又要有變化（不是 30 張一模一樣）

謝美珍的需求翻譯成技術語言：高品質 + 穩定性（不出錯） + 條件可控（能依風格生成） + 多樣性（變化自然）。這四個要求，就是擴散模型的強項。

03　對照

早期 GAN 圖像生成的痛點

在擴散模型流行之前，「織夢時尚」的工程師曾嘗試 GAN 方案，結果：

訓練不穩定（Training Instability）：GAN 的生成器和判別器在訓練時容易失衡，常出現「模式崩潰（Mode Collapse）」，生成器只學會生成少數幾種圖案，多樣性很差
難以控制細節：輸入「波希米亞風格」，但 GAN 不一定能精確照做，有時候就自己發揮跑偏
有時生成奇怪的臉或手部：早期 GAN 最著名的問題就是生成的人臉和手部細節失真
條件控制精度有限：條件式 GAN（Conditional GAN）可以加條件，但細節控制能力不如擴散模型
訓練成本高：GAN 的對抗訓練需要反覆調整，收斂困難，工程師光是調參數就花了大半時間

GAN 的這些痛點，讓「穩定性和多樣性控制」成為選型的關鍵考量。

04　解法

擴散模型怎麼解決穩定性和可控性

謝美珍的需求用擴散模型（Diffusion Model）實作的方式：

生成原理：擴散模型的訓練方式是「學習逆轉雜訊」。先把圖片加雜訊直到完全變成噪點，然後訓練模型「一步一步去雜訊還原圖片」。生成時從純雜訊出發，逐步去雜訊產生圖像，過程穩定、可控。

條件控制：擴散模型可以在去雜訊的每一步加入「條件提示」（文字描述或風格參數），讓模型在還原過程中朝著條件方向走。謝美珍輸入的「波希米亞 + 夏季 + 棉麻」就是這個條件。

穩定性：由於是逐步去雜訊，不是 GAN 的對抗博弈，擴散模型很少出現訓練崩潰或生成畫面扭曲的問題，細節品質高且一致。

多樣性控制：透過調整「引導強度（Guidance Scale）」，可以控制生成圖像離條件有多近、有多少隨機變化空間，謝美珍可以得到「風格一致但有自然變化」的 30 張草圖。

這就是選項 D 的正確理由：擴散模型（Diffusion Model）在圖像生成品質、穩定性和條件可控性方面，是目前最適合服裝設計 AI 需求的技術。

技術版：擴散模型與 GAN 的核心差異

擴散模型（Diffusion Model）是 2020 年後迅速崛起的圖像生成技術，已在許多任務上超越 GAN，代表產品包括 Stable Diffusion、DALL-E 2/3、Midjourney（其底層也受擴散模型影響）。

擴散模型 vs GAN 的關鍵差異：

訓練穩定性：GAN 需要生成器和判別器同步學習，容易失衡；擴散模型是單一模型的監督學習（預測如何去雜訊），訓練穩定。
多樣性：GAN 容易發生模式崩潰（所有輸出趨向相似）；擴散模型的隨機出發點讓多樣性天然豐富。
條件控制：擴散模型透過 CLIP（文字-圖像對齊）和 classifier-free guidance 能精確遵循文字條件；GAN 的條件控制相對粗糙。
生成速度：GAN 生成快（一次前向傳播）；擴散模型需要多步去雜訊，速度較慢（但可透過 DDIM 等加速方法改善）。

擴散模型在設計領域的應用：Adobe Firefly 用於商業設計、Midjourney 廣泛用於概念設計和創意草圖、各時尚品牌的 AI 設計工具（如 Zara 的 AI 系統）都採用擴散模型架構。

為什麼出題者考這題：擴散模型是當前 AIGC（AI Generated Content）最重要的技術方向，規劃師必須知道「圖像生成要用擴散模型、對話要用 LLM」，在選型時不會搞混。

05　陷阱

為什麼其他選項是錯的

A支援向量機（Support Vector Machine, SVM）

字面在說什麼

一種透過找最佳分隔邊界（超平面）來做分類或迴歸的機器學習演算法。

為什麼不對

SVM 是分類和迴歸工具，完全沒有生成圖像的能力。它的輸出是「這張圖屬於哪個類別」，不是「生成一張新圖」。用 SVM 做服裝草圖生成，就像用剪刀煮飯，根本不是對的工具。

誰會選錯

只記得 SVM 是「強大的機器學習算法」，沒仔細想它能做什麼的人。AI 選型的第一步是確認「要生成還是要分類」，這決定了整個技術方向。

B生成對抗網路（Generative Adversarial Network, GAN）

字面在說什麼

透過生成器和判別器相互對抗訓練的圖像生成模型，能生成逼真的假圖像。

為什麼不對

GAN 能生成圖像，但題目特別強調「穩定性與多樣性控制能力」，這正是 GAN 的弱點。GAN 訓練不穩定（容易模式崩潰）、條件控制精度有限。相較之下，擴散模型在這兩個維度明顯更好，是目前業界替代 GAN 的主流選擇。

誰會選錯

知道「生成式 AI 圖像生成 = GAN」但不知道擴散模型已經超越 GAN 的人。這道題的設計就是考考生是否知道當前技術的演進。

C決策樹（Decision Tree）

字面在說什麼

用樹狀結構的分支條件做分類或迴歸預測的演算法。

為什麼不對

決策樹跟 SVM 一樣，是分類和預測工具，完全沒有圖像生成能力。遇到「生成服裝草圖」這種任務，決策樹無從下手，因為它的邏輯是「走哪個分支 → 得出結論」，不是「從雜訊生成有意義的像素」。

誰會選錯

幾乎不會有人選 C，決策樹和圖像生成的關聯太遠。如果有人選 C，代表對 AI 技術的基本分類完全沒有概念。

06　變形

同個考點下次怎麼變形

變形 1

Stable Diffusion 和 DALL-E 都是擴散模型，有什麼主要差別？

直覺

都叫擴散模型，是不是一樣的東西？

答案

Stable Diffusion（Stability AI）是開源的，可以本地部署、自由微調、商業使用自行決定，成為 AI 藝術和工具的主流基礎。DALL-E（OpenAI）是閉源的 API 服務，直接透過 API 使用，品質高但不能自行修改底層。兩者底層都是擴散模型，差別在開放性和使用方式。

變形 2

GAN 的「模式崩潰（Mode Collapse）」是什麼問題？

直覺

模式崩潰聽起來很嚴重，是什麼情況？

答案

GAN 訓練時，生成器學到「只要生成某幾種固定圖案，判別器就難以識破」，就不再努力生成多樣性。結果是生成器輸出的所有圖片都趨向幾個固定樣式，失去多樣性。謝美珍要 30 張不同的草圖，但 GAN 可能全部生成幾乎一模一樣的圖，這就是模式崩潰。

變形 3

擴散模型的「引導強度（Guidance Scale / CFG Scale）」調高調低有什麼影響？

直覺

不知道這個參數是什麼。

答案

引導強度（CFG Scale）控制模型有多忠實於輸入條件。調高：生成結果非常貼近文字描述，但圖像可能過飽和、細節有點不自然。調低：模型有更多自由發揮空間，結果更多樣但可能偏離條件。謝美珍想要「風格一致但有自然變化」，需要在中間找到平衡點。

變形 4

「以圖生圖（Image-to-Image）」和「以文生圖（Text-to-Image）」是什麼？擴散模型都能做嗎？

直覺

生成圖像只有一種方式嗎？

答案

Text-to-Image（文生圖）：輸入文字描述，生成全新圖像，是最常見的用法。Image-to-Image（圖生圖）：輸入一張圖 + 文字條件，修改現有圖像（換風格、局部修改）。擴散模型兩種都能做，設計師可以先手繪草圖再用 AI 精修，或直接從文字生成，謝美珍的工作流程更靈活。

變形 5

擴散模型在設計創作以外，還有哪些商業應用？

直覺

擴散模型只是藝術家在用嗎？

答案

商業應用廣泛：電商商品圖（自動生成不同背景的商品展示圖）、室內設計（根據客戶描述生成空間渲染圖）、遊戲美術（快速生成概念圖和素材）、廣告創意（快速原型測試不同視覺方案）、醫療影像合成（生成訓練資料）。擴散模型已是商業設計工具鏈的核心。

07　延伸

想再往下看，這 5 個

擴散模型（Diffusion Model）透過逐步去雜訊生成高品質圖像的技術，在穩定性、多樣性和條件控制上優於 GAN，是 Stable Diffusion 的底層架構
生成對抗網路（Generative Adversarial Network）以生成器與判別器對抗訓練的圖像生成模型，訓練不穩定和模式崩潰問題使其逐漸被擴散模型超越
文字生成圖像（Text-to-Image）輸入文字描述自動生成圖像的 AI 能力，設計師輸入風格條件產生服裝草稿是其典型應用場景
潛在擴散模型（Latent Diffusion Model）在壓縮的潛在空間執行擴散過程，大幅降低運算成本，是 Stable Diffusion 的核心架構，兼顧品質與效率
生成式 AI（Generative AI）能創造新內容的 AI 技術總稱，擴散模型（圖像）和 LLM（文字）是其兩大主力，是創意產業 AI 轉型的核心