---
title: "文字生成圖像（Text-to-Image）"
slug: text-to-image
language: zh-TW
source: https://aiterms.tw/terms/text-to-image
updated_at: 2026-04-29
tags: [機器學習, 深度學習, 自然語言處理, 電腦視覺, 生成式AI, 神經網路, Prompt工程, 多模態AI]
ipas_term: false
---

# 文字生成圖像（Text-to-Image）

> **你有沒有只用一句話，就想先看見設計草稿的時候？**
> 你可以把文字生成圖像想成「把描述變成看得見的畫面」
> 你先講出主題、風格、構圖，模型再把這些線索組成一張圖
> 它很適合做靈感草圖、行銷素材和故事分鏡，但細節還是常要人再修
>
> 你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

### 容易混淆
> **文字生成圖像 vs 圖像編輯**
> 文字生成圖像是從零長出新圖
> 圖像編輯是拿既有圖片再改
> 最關鍵的區別：一個是從無到有，一個是從有到改
>
> **文字生成圖像 vs 擴散模型**
> 文字生成圖像是任務
> 擴散模型是常用的方法
> 最關鍵的區別：前者是目標，後者是工具
>
> **文字生成圖像 vs 提示工程**
> 文字生成圖像是產出圖的能力
> 提示工程是把需求說清楚的技巧
> 最關鍵的區別：一個是模型能力，一個是你下指令的方法
>

### 記住這句就好
> 先把意思講清楚，再讓模型把意思畫出來。

### 實際案例
> **行銷草稿**
> 設計師先用一句商品文案生出 5 張封面草圖，再挑一張進行精修，速度比從白紙開始快很多
>
> **課堂示意圖**
> 老師輸入「火山爆發的夜景插畫」先做教材示意，之後再補上文字標示和版面調整
>

### 算法與應用
> | 文字理解 | 先找出主題、風格、顏色、物件 | 描述越明確，畫面越穩 |
> | 生成步驟 | 把文字條件轉成影像特徵 | 通常會搭配擴散模型 |
> | 控制方式 | 用參考圖、種子值、負面提示詞調整結果 | 控制越多，越接近需求 |
> | 常見限制 | 手指、文字、複雜場景容易出錯 | 最後常要人工修圖 |

### 情境判斷
> **Q1（直覺題）：你要先做社群貼文封面，但還沒時間請設計師，該用嗎？**
> → 可以，先用文字生成圖像做草稿，等版型方向定了再交給設計師精修。
>
> **Q2（判斷題）：你要的是公司標誌上的準確字樣，還適合只靠它嗎？**
> → 不太適合，因為模型常把字拼錯，這種任務通常要搭配人工排版或後製。
>
### 常見問題
> **Q：文字生成圖像一定要會寫很長的提示詞嗎？**
> 不一定，重點是把主體、風格、場景和限制講清楚，短句也能有效。
>
> **Q：它和傳統繪圖軟體差在哪？**
> 傳統軟體靠人一筆一筆畫，文字生成圖像是先理解描述，再自動合成畫面。
>
> **Q：為什麼生成圖常常看起來像，但細節不對？**
> 因為模型擅長整體語意，不一定擅長精準控制局部細節，尤其是文字和手部。
>

### 相關術語
> - **圖像生成**：先看更大的生成家族，才知道文字生成圖像在哪一層
> - **擴散模型**：很多文字生圖系統都靠它完成畫面合成
> - **對比語言圖像預訓練**：了解文字和圖像如何對齊，會更懂提示詞為什麼有效
> - **穩定擴散**：這是實務上很常見的文字生圖模型

---

來源：https://aiterms.tw/terms/text-to-image
快查頁：https://aiterms.tw/terms/text-to-image
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-text-to-image