對比語言圖像預訓練是什麼？

Q: CLIP 最強的是什麼？

圖文對齊和零樣本分類、檢索能力

Q: 為什麼叫對比學習？

因為它在訓練時把正配對拉近、負配對拉遠

CLIP — 對比語言圖像預訓練的完整解釋

CLIP (Contrastive Language-Image Pre-training) 是一種透過對比學習，將圖像與文字描述連結的模型，能進行零樣本圖像分類，無需針對特定任務重新訓練。

容易混淆

CLIP vs 圖像分類器 圖像分類器只會認固定標籤，CLIP 可以把文字描述和圖片對上

CLIP vs 生成式視覺模型 CLIP 偏理解和對齊，生成式模型偏把圖片畫出來

零樣本 vs 微調 零樣本是直接拿文字提示用，微調是再用特定資料訓練

記住這句就好

圖和字先對齊到同一空間，再用文字去找圖片

實際案例

案例 1：文字找圖片 輸入「穿紅色外套的人」，系統能把對應圖片找出來

案例 2：零樣本分類 沒有針對新類別訓練，也能靠文字提示先做粗分類

算法與應用

面向重點

核心把圖片和文字投到同一個向量空間，讓它們互相對齊

訓練常用對比學習，把配對好的圖文拉近、不配對的拉遠

注意對抽象概念或高階語義，效果不一定像具體物體那麼穩

面向	重點
核心	把圖片和文字投到同一個向量空間，讓它們互相對齊
訓練	常用對比學習，把配對好的圖文拉近、不配對的拉遠
注意	對抽象概念或高階語義，效果不一定像具體物體那麼穩

情境判斷

Q1（判斷題）： 如果你只給文字描述，不重新訓練模型，也能判斷圖片類別嗎？ → 可以，這就是 CLIP 很常見的零樣本能力

Q2（判斷題）： 如果文字和圖片完全對不上，CLIP 還能救嗎？ → 通常不行，因為它本質上就是靠圖文對齊

常見問題

CLIP 最強的是什麼？

圖文對齊和零樣本分類、檢索能力

它一定比傳統分類器好嗎？

不一定，特定任務微調後的分類器還是可能更準

為什麼叫對比學習？

因為它在訓練時把正配對拉近、負配對拉遠

← 回到對比語言圖像預訓練快查頁

對比語言圖像預訓練是什麼？

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

相關術語

相關術語

常見問題

CLIP 最強的是什麼？

它一定比傳統分類器好嗎？

為什麼叫對比學習？

對比語言圖像預訓練 是什麼？

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

相關術語

相關術語

常見問題

CLIP 最強的是什麼？

它一定比傳統分類器好嗎？

為什麼叫對比學習？

對比語言圖像預訓練是什麼？