SSL（半監督學習）是什麼？完整定義與解說

你有沒有在你手上只有少量人工標註資料，卻有一大堆沒標籤的資料想一起用，發現只看表面常常不夠？

你可以把它想成先用少量答案當老師，再讓模型從大量未標記資料裡自己補功課。

標註很貴，半監督學習就是想用更少標籤，做出比純監督更好的結果。

你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

容易混淆

監督式學習 監督式學習像老師手把手教每個細節，半監督學習像老師只點撥幾個重點，剩下讓學生自己從大量資料中領悟。

最關鍵的區別：先看它是在比意思、比結構，還是在做任務輸出。

記住這句就好

有少量標籤，再加大量沒標籤一起學，就是半監督學習。

實際案例

醫療影像只有少數病例有醫師標註，模型可以先學已標註資料，再拿未標註影像做自訓練。公司客服分類只有一小部分人工分類過，其餘工單很多，半監督方法能補足訓練資料。

算法與應用

常見方法包括 pseudo-label、自訓練、consistency regularization 和 label propagation。重點是讓未標記資料提供分布資訊，但不能把錯誤標籤一路放大。

情境判斷

Q1（直覺題）： 如果你只有 100 筆標註資料和 10,000 筆未標註資料，這適合半監督嗎？

→ 很適合。這正是半監督學習最常見的場景。

Q2（判斷題）： 如果未標註資料和真實資料分布差很多，還能硬用嗎？

→ 不建議。看情況，分布差太多時，未標註資料反而會把模型帶歪。

常見問題

半監督學習與監督學習和非監督學習有何不同？

監督學習使用完全標記的資料進行訓練，非監督學習使用完全未標記的資料，而半監督學習則結合了少量標記資料和大量未標記資料。半監督學習試圖利用未標記資料的資訊來提升模型的效能，同時降低對大量標記資料的依賴。

半監督學習中的「平滑性假設」是什麼意思？

平滑性假設是指如果兩個樣本在輸入空間中很接近，那麼它們的輸出也應該很接近，也就是說，相似的輸入應該產生相似的輸出。這個假設是許多半監督學習算法的基礎，例如標籤傳播。

在什麼情況下不適合使用半監督學習？

如果未標記資料的分布與標記資料的分布差異很大，或者未標記資料包含大量的噪聲，那麼半監督學習可能會降低模型的效能。在這種情況下，可能需要更多的標記資料，或者使用其他的機器學習方法。

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

常見問題

相關術語

延伸學習

資料來源與參考依據