iPAS AI 應用規劃師中級　科目一

生成式 AI 圖像的品牌標誌顏色老是跑掉，為什麼？

原題 50

某設計師使用公司內部建置的生成式 AI 工具製作行銷素材，並輸入提示語（Prompt）：「請生成一張模特兒手持品牌飲料、背景為海邊夕陽的照片」。系統能正確生成主要主題與場景，但輸出的圖像中，品牌標誌顏色常有誤差，或人物手部姿勢顯得不自然。若從多模態生成模型的技術機制分析，此現象最可能是下列哪一項原因所造成？

白話

一位設計師用公司自建的生成式 AI 工具做行銷素材，輸入提示語「模特兒手持品牌飲料、背景海邊夕陽」，主要主題和場景都生成得不錯，但有兩個問題：品牌標誌的顏色老是跑掉、人物手部姿勢很不自然。

問你：從多模態生成模型（同時理解文字和圖像的模型）的技術機制來看，最可能的原因是什麼？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

CLIP 模型裡負責理解文字的編碼器，和負責理解圖像的編碼器，如果兩者學到的語意向量空間沒有充分對齊，文字的「品牌標誌紅色」和圖像裡「紅色像素區域」的語意橋接就不精準，導致跨模態理解偏差（Cross-modal Misalignment），生成的圖像細節就會跑掉。答案是 C。

02　情境

先感受問題：翻譯機翻到一半掉字

「鮮時代飲料」品牌的行銷設計師林小蕙，用公司自建的文字轉圖像（Text-to-Image）AI 工具生成活動素材。

她輸入：「模特兒手持鮮時代飲料瓶、品牌 LOGO 為橙色，背景是海邊夕陽。」

生成結果：場景對了（海邊夕陽），模特兒大致對了，但品牌 LOGO 顏色變成粉紅色，手指的彎曲角度也很奇怪。

這個系統的核心是「CLIP（Contrastive Language-Image Pre-training，對比式語言圖像預訓練）模型」。CLIP 的任務是當「文字和圖像的翻譯機」：把文字的描述翻成和圖像意思一樣的「語意向量」，讓生成模型知道該生成什麼。

問題就出在這個翻譯機：CLIP 的文字翻譯（文字編碼器）和圖像翻譯（影像編碼器）沒有充分對齊，所以翻到細節時出錯。

「橙色 LOGO」的語意翻得不夠精準，生成模型就只好猜，猜出了粉紅色。手部細節（骨骼、肌肉、姿勢）在文字描述裡幾乎沒有明確提到，CLIP 對「自然手部姿勢」的文字圖像對齊更弱，生成結果就更不自然。

03　對照

CLIP 對齊不足時的五種細節失準

CLIP 的文字編碼器和影像編碼器若對齊不充分，會出現以下具體問題：

顏色細節失準：「橙色」「紅色」「磚紅色」這類細微色彩差異，在 CLIP 的語意空間裡對應的圖像向量可能互相混疊，生成時顏色就跑掉。
細部結構不自然：手指、耳環、文字等細節，訓練資料裡相對稀少且多樣，CLIP 的文字圖像對齊更不精準，生成出來的細節就怪。「手部」是著名的難題，原因正是此。
整體場景對但細節錯：CLIP 對高頻率、大面積的語意（「海邊」「夕陽」「模特兒」）對齊較好，因為訓練資料多；對品牌特定元素（「鮮時代橙色 LOGO」）對齊就差，因為特定品牌的文字圖像配對幾乎不在訓練集裡。
文字在圖像中失真：圖像裡的文字（如品牌名稱）幾乎所有 Text-to-Image 模型都生成得很差，原因就是 CLIP 對「字母排列成特定單字」的跨模態對齊最弱。
多屬性同時描述時干擾：「橙色的品牌 LOGO」包含兩個屬性（顏色、品牌），CLIP 要同時對齊兩者，對齊不足時會發生其中一個屬性「洩漏」到另一個物體上（例如顏色貼錯物件）。

04　解法

跨模態對齊不足是細節失準的根源

回到林小蕙的案例。理解核心機制需要先知道「多模態生成系統」是怎麼運作的：

1. 文字編碼器（Text Encoder）讀懂提示語，把它轉成語意向量。
2. 影像編碼器（Image Encoder）在訓練時理解圖像，學出「圖像的語意向量」。
3. 兩個向量空間「對齊」，讓「橙色」的文字向量和「橙色像素區域」的圖像向量距離很近。
4. 擴散模型（Diffusion Model）根據文字向量，逐步生成符合語意的圖像。

如果步驟 3 的對齊不夠好，步驟 4 就沒有足夠精確的語意引導，只能根據「大概對的」向量方向生成，細節就失準。

CLIP 的對齊是靠大量的「文字圖像配對」訓練的，但訓練資料裡：品牌 LOGO 的細節配對少、手部精確姿勢的配對少、細微顏色差異的配對少。這些都是 CLIP 對齊的薄弱點，也正是林小蕙遇到問題的地方。

這就是選項 C 講的：CLIP 模型中的文字編碼器與影像編碼器在語意嵌入空間未充分對齊，導致跨模態理解偏差。

技術版：CLIP 的訓練機制與跨模態對齊的數學直觀

中級考試大概率會考程式碼跟公式，所以這部分你還是要學。但如果現在學起來很痛苦，可以先跳過，等讀完其他題目回頭再來。

CLIP 的訓練方式（對比學習）：

# CLIP 訓練的核心：讓「配對的文字和圖像」向量相近
# 讓「不配對的」向量相遠（對比學習）

# 假設一個 batch 有 N 個配對（文字 i, 圖像 i）
# text_features[i] = 文字 i 的向量
# image_features[i] = 圖像 i 的向量

# 計算所有文字和圖像的相似度矩陣（N × N）
logits = text_features @ image_features.T  # 矩陣乘法

# 對角線是正確配對，其餘是負樣本
# 訓練目標：讓對角線的值最大，其餘值最小
loss = (cross_entropy(logits, labels) + cross_entropy(logits.T, labels)) / 2

為什麼對齊不夠就導致細節失準：

CLIP 訓練後，文字向量空間和圖像向量空間有一個「共同語意空間」。但這個對齊是統計性的，對高頻語意（大場景）對齊好，對低頻語意（特定顏色、品牌細節）對齊差。

對齊不足的具體表現：

描述	對齊品質
「海邊夕陽」	高（大量訓練配對）
「橙色 LOGO」的精確色值	低（細微顏色差異配對少）
「自然的手持姿勢」	低（手部細節配對不足）
「品牌名稱文字」	極低（特定文字圖像幾乎沒有）

改善方向：

1. 品牌客製化微調（Fine-tuning）：用品牌素材對 CLIP 做少量微調，讓「品牌 LOGO 的特徵」在對齊空間裡更精準。

2. 使用 ControlNet：在擴散模型外加入結構控制，讓手部姿勢、位置等細節受到明確約束，繞過 CLIP 對齊不足的問題。

3. 負向提示（Negative Prompt）：告訴模型「不要生成粉紅色、不要生成變形的手」，引導生成遠離常見錯誤模式。

05　陷阱

為什麼其他選項是錯的

A擴散式生成模型的去雜訊過程出現隨機梯度漂移，導致影像像素錯誤

字面在說什麼

擴散模型（Diffusion Model）在去雜訊（Denoising）這個生成步驟裡，梯度計算出現隨機漂移，讓某些像素生成錯誤。

為什麼不對

擴散模型的去雜訊過程確實帶有隨機性（Stochastic），但這個隨機性是設計上的，不是「梯度漂移」造成的。推論（Inference）時不做梯度更新，哪來梯度漂移？而且，擴散模型的隨機性導致的是整體圖像的多樣性，不是系統性的「品牌標誌顏色每次都跑掉」這種模式化錯誤。系統性的細節失準，比較像跨模態對齊問題，不是隨機梯度問題。

誰會選錯

知道擴散模型和去雜訊，但混淆了「訓練時的梯度」和「推論時的去雜訊步驟」。推論時沒有梯度下降，所以不存在「隨機梯度漂移」這個說法。

B提示語過長造成 Transformer 的位置編碼超出上下文限制，導致生成混亂

字面在說什麼

設計師輸入的提示語太長，超過了 Transformer 的最大位置編碼（Context Window），導致後面的文字沒辦法被正確理解，生成就亂掉了。

為什麼不對

題目的提示語「模特兒手持品牌飲料、背景為海邊夕陽」是一句短短的中文，完全不可能超過 CLIP 的 Token 上限（CLIP 的上限通常是 77 個 token）。而且，如果真的超出上限，會是「全部描述都失效」，不是「主要場景對但品牌細節跑掉」這種選擇性錯誤。題目說「系統能正確生成主要主題與場景」，所以 Transformer 的上下文理解是正常的。

誰會選錯

知道 Transformer 有 Context Window 限制，就以為只要有細節問題就是這個原因。但題目說的是短提示語，且主要場景是對的，這個診斷邏輯不吻合。

D模型未採用對比學習（Contrastive Learning）損失函數，無法建立多模態語意關聯

字面在說什麼

說這個生成模型從來沒有用對比學習，所以根本不知道文字和圖像怎麼互相對應，自然就生成錯了。

為什麼不對

題目說這是「多模態生成模型」，能正確生成主要主題和場景，代表它確實有建立文字圖像的語意關聯，因此必然有使用某種跨模態訓練（CLIP 就是用對比學習訓練的）。如果完全沒有對比學習，模型連基本的文字圖像對應都做不到，但題目的場景（海邊夕陽、模特兒）是對的。問題是「對齊的精度不夠」，不是「完全沒有對齊」。

對比語言圖像預訓練（CLIP）本題正解核心：CLIP 的文字與圖像編碼器在語意嵌入空間對齊不足，是品牌顏色偏差與手部細節不自然的根本原因。
擴散模型（Diffusion Model）Text-to-Image 的主流生成架構，逐步去雜訊產生圖像；語意引導來自 CLIP，CLIP 對齊精度決定了細節生成的準確度。
控制網路（ControlNet）在擴散模型外加入骨骼、邊緣等結構控制信號，能精確約束姿勢；解決手部姿勢不自然問題的最直接技術方案。
對比學習（Contrastive Learning）CLIP 的訓練方法，讓語意相近的文字圖像配對靠近、不同的遠離；對比學習品質決定了跨模態對齊精度，進而影響細節生成。
多模態 AI（Multimodal AI）同時理解文字、圖像等多種模態的 AI 系統；本題描述的品牌色彩偏差是現有多模態生成系統在細粒度對齊上的典型侷限。