你有沒有只用一句話,就想先看見設計草稿的時候? 你可以把文字生成圖像想成「把描述變成看得見的畫面」 你先講出主題、風格、構圖,模型再把這些線索組成一張圖 它很適合做靈感草圖、行銷素材和故事分鏡,但細節還是常要人再修
你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。
容易混淆
文字生成圖像 vs 圖像編輯 文字生成圖像是從零長出新圖 圖像編輯是拿既有圖片再改 最關鍵的區別:一個是從無到有,一個是從有到改
文字生成圖像 vs 擴散模型 文字生成圖像是任務 擴散模型是常用的方法 最關鍵的區別:前者是目標,後者是工具
文字生成圖像 vs 提示工程 文字生成圖像是產出圖的能力 提示工程是把需求說清楚的技巧 最關鍵的區別:一個是模型能力,一個是你下指令的方法
記住這句就好
先把意思講清楚,再讓模型把意思畫出來。
實際案例
行銷草稿 設計師先用一句商品文案生出 5 張封面草圖,再挑一張進行精修,速度比從白紙開始快很多
課堂示意圖 老師輸入「火山爆發的夜景插畫」先做教材示意,之後再補上文字標示和版面調整
算法與應用
| 文字理解 | 先找出主題、風格、顏色、物件 | 描述越明確,畫面越穩 | | 生成步驟 | 把文字條件轉成影像特徵 | 通常會搭配擴散模型 | | 控制方式 | 用參考圖、種子值、負面提示詞調整結果 | 控制越多,越接近需求 | | 常見限制 | 手指、文字、複雜場景容易出錯 | 最後常要人工修圖 |
情境判斷
Q1(直覺題): 你要先做社群貼文封面,但還沒時間請設計師,該用嗎?
Q2(判斷題): 你要的是公司標誌上的準確字樣,還適合只靠它嗎?
常見問題
文字生成圖像一定要會寫很長的提示詞嗎?
不一定,重點是把主體、風格、場景和限制講清楚,短句也能有效。
它和傳統繪圖軟體差在哪?
傳統軟體靠人一筆一筆畫,文字生成圖像是先理解描述,再自動合成畫面。
為什麼生成圖常常看起來像,但細節不對?
因為模型擅長整體語意,不一定擅長精準控制局部細節,尤其是文字和手部。