你想用一句文字就把對應圖片找出來時,會不會想知道背後怎麼做?
你可以把它想成 CLIP 是把圖片和文字放進同一個語意空間裡做對齊的模型,讓系統不必重新訓練也能靠文字描述理解圖片
在圖片搜尋、零樣本分類和圖文對齊這些情境裡,它很常直接改變你怎麼設計和怎麼評估模型
容易混淆
CLIP vs 圖像分類器 圖像分類器只會認固定標籤,CLIP 可以把文字描述和圖片對上
CLIP vs 生成式視覺模型 CLIP 偏理解和對齊,生成式模型偏把圖片畫出來
零樣本 vs 微調 零樣本是直接拿文字提示用,微調是再用特定資料訓練
記住這句就好
圖和字先對齊到同一空間,再用文字去找圖片
實際案例
案例 1:文字找圖片 輸入「穿紅色外套的人」,系統能把對應圖片找出來
案例 2:零樣本分類 沒有針對新類別訓練,也能靠文字提示先做粗分類
算法與應用
面向 重點 核心 把圖片和文字投到同一個向量空間,讓它們互相對齊 訓練 常用對比學習,把配對好的圖文拉近、不配對的拉遠 注意 對抽象概念或高階語義,效果不一定像具體物體那麼穩
情境判斷
Q1(判斷題): 如果你只給文字描述,不重新訓練模型,也能判斷圖片類別嗎? → 可以,這就是 CLIP 很常見的零樣本能力
Q2(判斷題): 如果文字和圖片完全對不上,CLIP 還能救嗎? → 通常不行,因為它本質上就是靠圖文對齊
常見問題
CLIP 最強的是什麼?
圖文對齊和零樣本分類、檢索能力
它一定比傳統分類器好嗎?
不一定,特定任務微調後的分類器還是可能更準
為什麼叫對比學習?
因為它在訓練時把正配對拉近、負配對拉遠