你有沒有發現,AI 有時不是靠背答案,而是靠分清楚誰像誰、誰不像誰?
你可以把對比學習想成「把相似的拉近,把不相似的推遠」:模型不是先拿標籤死背,而是學會判斷資料之間的關係。
它很重要,因為很多資料沒有人工標註,對比學習能利用大量原始資料先學出好表示,之後再拿去做分類、檢索或推薦。
容易混淆
對比學習 vs 監督學習 vs 自監督學習
對比學習:透過比較樣本相似度來學表示
監督學習:靠人工標籤直接學答案
自監督學習:從資料本身造出訓練訊號,對比學習常屬於這一類
最關鍵的區別:對比學習的重點是「學表示」,不是直接背標籤。
記住這句就好
相似的靠近,不相似的拉開。
實際案例
圖片搜尋
前:不同照片都被看成一堆像素,沒辦法判斷誰像誰
後:先學出圖片向量,讓同類物件靠近,檢索時更容易找對
語意配對
前:句子太多、標註太少,很難直接做監督訓練
後:用對比學習先讓相似句子靠近,再拿這些表示做下游任務
算法與應用
對比學習常需要正樣本和負樣本,搭配資料增強、嵌入表示和相似度損失函數
它常出現在語意搜尋、圖片表徵、跨模態表示與預訓練流程
這方法的關鍵,不是把資料分類死,而是把結構學出來
情境判斷
Q1(直覺題): 如果模型學會把同類圖片向量拉近,這像對比學習嗎?
→ 像,這就是它最典型的目標。
Q2(判斷題): 只要沒有人工標籤,就一定是對比學習嗎?
→ 不一定。沒有標籤還有很多自監督方法,對比學習只是其中一種。
常見問題
對比學習一定要負樣本嗎?
多數方法會用,但也有變體不太依賴明確負樣本。
它和分類有什麼不同?
分類重點是輸出類別,對比學習重點是學出好表示。
這為什麼對搜尋有用?
因為搜尋本質上就是在找語意接近的表示。