---
title: "對比語言圖像預訓練（CLIP）"
slug: clip
language: zh-TW
source: https://aiterms.tw/terms/clip
updated_at: 2026-04-29
tags: [多模態AI, 電腦視覺, 自然語言處理, 深度學習, 自監督學習]
ipas_term: false
---

# 對比語言圖像預訓練（CLIP）

> **你想用一句文字就把對應圖片找出來時，會不會想知道背後怎麼做？**
>
> 你可以把它想成 CLIP 是把圖片和文字放進同一個語意空間裡做對齊的模型，讓系統不必重新訓練也能靠文字描述理解圖片
>
> 在圖片搜尋、零樣本分類和圖文對齊這些情境裡，它很常直接改變你怎麼設計和怎麼評估模型

### 容易混淆
> **CLIP vs 圖像分類器**
> 圖像分類器只會認固定標籤，CLIP 可以把文字描述和圖片對上
>
> **CLIP vs 生成式視覺模型**
> CLIP 偏理解和對齊，生成式模型偏把圖片畫出來
>
> **零樣本 vs 微調**
> 零樣本是直接拿文字提示用，微調是再用特定資料訓練

### 記住這句就好
> 圖和字先對齊到同一空間，再用文字去找圖片

### 實際案例
> **案例 1：文字找圖片**
> 輸入「穿紅色外套的人」，系統能把對應圖片找出來
>
> **案例 2：零樣本分類**
> 沒有針對新類別訓練，也能靠文字提示先做粗分類

### 算法與應用
> | 面向 | 重點 |
> |---|---|
> | 核心 | 把圖片和文字投到同一個向量空間，讓它們互相對齊 |
> | 訓練 | 常用對比學習，把配對好的圖文拉近、不配對的拉遠 |
> | 注意 | 對抽象概念或高階語義，效果不一定像具體物體那麼穩 |

### 情境判斷
> **Q1（判斷題）：** 如果你只給文字描述，不重新訓練模型，也能判斷圖片類別嗎？
> → 可以，這就是 CLIP 很常見的零樣本能力
>
> **Q2（判斷題）：** 如果文字和圖片完全對不上，CLIP 還能救嗎？
> → 通常不行，因為它本質上就是靠圖文對齊

### 常見問題
> **Q：CLIP 最強的是什麼？**
> 圖文對齊和零樣本分類、檢索能力
>
> **Q：它一定比傳統分類器好嗎？**
> 不一定，特定任務微調後的分類器還是可能更準
>
> **Q：為什麼叫對比學習？**
> 因為它在訓練時把正配對拉近、負配對拉遠

### 相關術語
> - **視覺語言模型**：CLIP 就是這個方向的代表之一，先看它能幫你建立整體圖像感
> - **對比學習**：CLIP 的核心訓練方法，先懂這個才能看懂它怎麼學對齊
> - **零樣本學習**：CLIP 很常被拿來展示這種能力，先看它的使用方式
> - **轉換器架構**：CLIP 的文字或圖像編碼常和這類模型一起討論
> - **自然語言處理**：文字端的理解能力還是會依賴 NLP 的基礎

---

來源：https://aiterms.tw/terms/clip
快查頁：https://aiterms.tw/terms/clip
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-clip