對比語言圖像預訓練 是什麼?

CLIP — 對比語言圖像預訓練 的完整解釋

CLIP (Contrastive Language-Image Pre-training) 是一種透過對比學習,將圖像與文字描述連結的模型,能進行零樣本圖像分類,無需針對特定任務重新訓練。

容易混淆

CLIP vs 圖像分類器 圖像分類器只會認固定標籤,CLIP 可以把文字描述和圖片對上

CLIP vs 生成式視覺模型 CLIP 偏理解和對齊,生成式模型偏把圖片畫出來

零樣本 vs 微調 零樣本是直接拿文字提示用,微調是再用特定資料訓練

記住這句就好

圖和字先對齊到同一空間,再用文字去找圖片

實際案例

案例 1:文字找圖片 輸入「穿紅色外套的人」,系統能把對應圖片找出來

案例 2:零樣本分類 沒有針對新類別訓練,也能靠文字提示先做粗分類

算法與應用

面向 重點
核心 把圖片和文字投到同一個向量空間,讓它們互相對齊
訓練 常用對比學習,把配對好的圖文拉近、不配對的拉遠
注意 對抽象概念或高階語義,效果不一定像具體物體那麼穩

情境判斷

Q1(判斷題): 如果你只給文字描述,不重新訓練模型,也能判斷圖片類別嗎? → 可以,這就是 CLIP 很常見的零樣本能力

Q2(判斷題): 如果文字和圖片完全對不上,CLIP 還能救嗎? → 通常不行,因為它本質上就是靠圖文對齊

相關術語

常見問題

CLIP 最強的是什麼?

圖文對齊和零樣本分類、檢索能力

它一定比傳統分類器好嗎?

不一定,特定任務微調後的分類器還是可能更準

為什麼叫對比學習?

因為它在訓練時把正配對拉近、負配對拉遠