CL（對比學習）是什麼？完整定義與解說

因為搜尋本質上就是在找語意接近的表示。

你有沒有發現，AI 有時不是靠背答案，而是靠分清楚誰像誰、誰不像誰？

你可以把對比學習想成「把相似的拉近，把不相似的推遠」：模型不是先拿標籤死背，而是學會判斷資料之間的關係。

它很重要，因為很多資料沒有人工標註，對比學習能利用大量原始資料先學出好表示，之後再拿去做分類、檢索或推薦。

容易混淆

對比學習 vs 監督學習 vs 自監督學習

對比學習：透過比較樣本相似度來學表示

監督學習：靠人工標籤直接學答案

自監督學習：從資料本身造出訓練訊號，對比學習常屬於這一類

最關鍵的區別：對比學習的重點是「學表示」，不是直接背標籤。

相似的靠近，不相似的拉開。

圖片搜尋

前：不同照片都被看成一堆像素，沒辦法判斷誰像誰

後：先學出圖片向量，讓同類物件靠近，檢索時更容易找對

語意配對

前：句子太多、標註太少，很難直接做監督訓練

後：用對比學習先讓相似句子靠近，再拿這些表示做下游任務

對比學習常需要正樣本和負樣本，搭配資料增強、嵌入表示和相似度損失函數

它常出現在語意搜尋、圖片表徵、跨模態表示與預訓練流程

這方法的關鍵，不是把資料分類死，而是把結構學出來

Q1（直覺題）： 如果模型學會把同類圖片向量拉近，這像對比學習嗎？

→ 像，這就是它最典型的目標。

Q2（判斷題）： 只要沒有人工標籤，就一定是對比學習嗎？

→ 不一定。沒有標籤還有很多自監督方法，對比學習只是其中一種。

對比學習一定要負樣本嗎？

多數方法會用，但也有變體不太依賴明確負樣本。

它和分類有什麼不同？

分類重點是輸出類別，對比學習重點是學出好表示。

這為什麼對搜尋有用？

因為搜尋本質上就是在找語意接近的表示。