文字生成圖像(Text-to-Image)是什麼?

文字生成圖像是一種人工智慧技術,它能根據文字描述自動生成對應的圖像,實現文字內容的視覺化呈現。|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

文字生成圖像(Text-to-Image)是什麼? 機器學習深度學習

你有沒有只用一句話,就想先看見設計草稿的時候? 你可以把文字生成圖像想成「把描述變成看得見的畫面」 你先講出主題、風格、構圖,模型再把這些線索組成一張圖 它很適合做靈感草圖、行銷素材和故事分鏡,但細節還是常要人再修

你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。

容易混淆

文字生成圖像 vs 圖像編輯 文字生成圖像是從零長出新圖 圖像編輯是拿既有圖片再改 最關鍵的區別:一個是從無到有,一個是從有到改

文字生成圖像 vs 擴散模型 文字生成圖像是任務 擴散模型是常用的方法 最關鍵的區別:前者是目標,後者是工具

文字生成圖像 vs 提示工程 文字生成圖像是產出圖的能力 提示工程是把需求說清楚的技巧 最關鍵的區別:一個是模型能力,一個是你下指令的方法

記住這句就好

先把意思講清楚,再讓模型把意思畫出來。

實際案例

行銷草稿 設計師先用一句商品文案生出 5 張封面草圖,再挑一張進行精修,速度比從白紙開始快很多

課堂示意圖 老師輸入「火山爆發的夜景插畫」先做教材示意,之後再補上文字標示和版面調整

算法與應用

| 文字理解 | 先找出主題、風格、顏色、物件 | 描述越明確,畫面越穩 | | 生成步驟 | 把文字條件轉成影像特徵 | 通常會搭配擴散模型 | | 控制方式 | 用參考圖、種子值、負面提示詞調整結果 | 控制越多,越接近需求 | | 常見限制 | 手指、文字、複雜場景容易出錯 | 最後常要人工修圖 |

情境判斷

Q1(直覺題): 你要先做社群貼文封面,但還沒時間請設計師,該用嗎?

可以,先用文字生成圖像做草稿,等版型方向定了再交給設計師精修。

Q2(判斷題): 你要的是公司標誌上的準確字樣,還適合只靠它嗎?

不太適合,因為模型常把字拼錯,這種任務通常要搭配人工排版或後製。

常見問題

文字生成圖像一定要會寫很長的提示詞嗎?

不一定,重點是把主體、風格、場景和限制講清楚,短句也能有效。

它和傳統繪圖軟體差在哪?

傳統軟體靠人一筆一筆畫,文字生成圖像是先理解描述,再自動合成畫面。

為什麼生成圖常常看起來像,但細節不對?

因為模型擅長整體語意,不一定擅長精準控制局部細節,尤其是文字和手部。