CLIP（對比語言圖像預訓練）是什麼？完整定義與解說

圖文對齊和零樣本分類、檢索能力

因為它在訓練時把正配對拉近、負配對拉遠

你想用一句文字就把對應圖片找出來時，會不會想知道背後怎麼做？

你可以把它想成 CLIP 是把圖片和文字放進同一個語意空間裡做對齊的模型，讓系統不必重新訓練也能靠文字描述理解圖片

在圖片搜尋、零樣本分類和圖文對齊這些情境裡，它很常直接改變你怎麼設計和怎麼評估模型

容易混淆

CLIP vs 圖像分類器 圖像分類器只會認固定標籤，CLIP 可以把文字描述和圖片對上

CLIP vs 生成式視覺模型 CLIP 偏理解和對齊，生成式模型偏把圖片畫出來

零樣本 vs 微調 零樣本是直接拿文字提示用，微調是再用特定資料訓練

圖和字先對齊到同一空間，再用文字去找圖片

案例 1：文字找圖片 輸入「穿紅色外套的人」，系統能把對應圖片找出來

案例 2：零樣本分類 沒有針對新類別訓練，也能靠文字提示先做粗分類

面向重點

核心把圖片和文字投到同一個向量空間，讓它們互相對齊

訓練常用對比學習，把配對好的圖文拉近、不配對的拉遠

注意對抽象概念或高階語義，效果不一定像具體物體那麼穩

Q1（判斷題）： 如果你只給文字描述，不重新訓練模型，也能判斷圖片類別嗎？ → 可以，這就是 CLIP 很常見的零樣本能力

Q2（判斷題）： 如果文字和圖片完全對不上，CLIP 還能救嗎？ → 通常不行，因為它本質上就是靠圖文對齊

CLIP 最強的是什麼？

圖文對齊和零樣本分類、檢索能力

它一定比傳統分類器好嗎？

不一定，特定任務微調後的分類器還是可能更準

為什麼叫對比學習？

因為它在訓練時把正配對拉近、負配對拉遠