你有沒有在你手上只有少量人工標註資料,卻有一大堆沒標籤的資料想一起用,發現只看表面常常不夠?
你可以把它想成先用少量答案當老師,再讓模型從大量未標記資料裡自己補功課。
標註很貴,半監督學習就是想用更少標籤,做出比純監督更好的結果。
你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。
容易混淆
監督式學習 監督式學習像老師手把手教每個細節,半監督學習像老師只點撥幾個重點,剩下讓學生自己從大量資料中領悟。
最關鍵的區別:先看它是在比意思、比結構,還是在做任務輸出。
記住這句就好
有少量標籤,再加大量沒標籤一起學,就是半監督學習。
實際案例
醫療影像只有少數病例有醫師標註,模型可以先學已標註資料,再拿未標註影像做自訓練。 公司客服分類只有一小部分人工分類過,其餘工單很多,半監督方法能補足訓練資料。
算法與應用
常見方法包括 pseudo-label、自訓練、consistency regularization 和 label propagation。 重點是讓未標記資料提供分布資訊,但不能把錯誤標籤一路放大。
情境判斷
Q1(直覺題): 如果你只有 100 筆標註資料和 10,000 筆未標註資料,這適合半監督嗎?
→ 很適合。這正是半監督學習最常見的場景。
Q2(判斷題): 如果未標註資料和真實資料分布差很多,還能硬用嗎?
→ 不建議。看情況,分布差太多時,未標註資料反而會把模型帶歪。
常見問題
半監督學習與監督學習和非監督學習有何不同?
監督學習使用完全標記的資料進行訓練,非監督學習使用完全未標記的資料,而半監督學習則結合了少量標記資料和大量未標記資料。半監督學習試圖利用未標記資料的資訊來提升模型的效能,同時降低對大量標記資料的依賴。
半監督學習中的「平滑性假設」是什麼意思?
平滑性假設是指如果兩個樣本在輸入空間中很接近,那麼它們的輸出也應該很接近,也就是說,相似的輸入應該產生相似的輸出。這個假設是許多半監督學習算法的基礎,例如標籤傳播。
在什麼情況下不適合使用半監督學習?
如果未標記資料的分布與標記資料的分布差異很大,或者未標記資料包含大量的噪聲,那麼半監督學習可能會降低模型的效能。在這種情況下,可能需要更多的標記資料,或者使用其他的機器學習方法。