iPAS AI 應用規劃師初級　科目一　人工智慧基礎概論

30% 有標籤、70% 無標籤，該用哪種學習方法？

原題 31

某農場收集了大量作物葉片影像，但只有 30% 的影像有病害類別標註，其餘 70% 的影像沒有任何標籤。農場希望充分利用所有資料來訓練病害識別模型。這種情況最適合使用哪一種學習方法？

白話

題目的情境是：有一些有標籤的資料（30%），也有大量沒有標籤的資料（70%），想要兩種資料都用上。這是一個「標籤不完整」的場景。

問你：同時有少量有標籤資料和大量無標籤資料，該採用哪種學習方法？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

少量有標籤 + 大量無標籤，兩種資料都想用，就是半監督式學習的設計場景。

02　情境

先感受問題：標籤貴，照片便宜，怎麼辦？

假設「青農科技」為雲林蕃茄農場開發 AI 病害識別系統。農場老闆的 iPhone 一天能拍幾千張葉片照片，三個月下來累積了 20 萬張。

但給照片貼標籤（「這是炭疽病」「這是晚疫病」「這是健康葉片」）需要請農業顧問一張一張看。顧問費用不便宜，一個月只能標完 6,000 張，三個月標了 18,000 張，占 20 萬張的 9%。

問題來了：剩下的 18 萬多張沒有標籤，但都是真實的葉片照片，裡面有大量有價值的視覺資訊。如果只用那 18,000 張有標籤的訓練，丟掉 18 萬張，是很大的浪費。

農場老闆問：「有沒有辦法把那 18 萬張也用上？」

這就是半監督式學習解決的問題：在少量有標籤資料和大量無標籤資料混合的情況下，讓模型同時從兩種資料中學習，達到比只用標籤資料更好的效果。

03　對照

只用標籤資料或只用無標籤資料，各有什麼問題

在半監督式學習出現之前，面對「標籤不足」的問題，通常只能選一邊：

只用有標籤的 18,000 張：可以直接用監督式學習，但資料量不足，模型泛化能力差，對新的葉片場景容易失準
花更多錢標籤：繼續請顧問標，但標籤費用線性增加，農場預算有限
只用無標籤的 18 萬張做非監督分群：可以找出「相似外觀的葉片群」，但無法直接告訴你哪群是什麼病，仍需人工對應
等累積更多標籤再做：時間成本太高，農場現在就需要識別系統
丟掉無標籤資料：最簡單但最浪費，18 萬張照片裡有大量關於葉片外觀的知識，不用可惜

04　解法

半監督式學習怎麼同時用兩種資料

半監督式學習（Semi-supervised Learning）的核心假設是：即使沒有標籤，大量的無標籤資料仍然包含關於資料分佈的有用資訊。

「青農科技」採用的流程長這樣：

第一步：用有標籤資料訓練初始模型。先用 18,000 張有標籤的照片，訓練出一個基礎的病害分類模型，雖然不夠準確，但已經有基本判斷能力。

第二步：用初始模型對無標籤資料做偽標籤（Pseudo-labeling）。把 18 萬張無標籤照片餵進模型，對預測信心度高的照片（例如「這張是炭疽病的機率 95%」）自動打上暫時標籤。

第三步：混合真實標籤和偽標籤一起重新訓練。把 18,000 張真實標籤 + 預測信心高的偽標籤合在一起，重新訓練模型，讓它見識到更多樣的葉片樣貌，泛化能力提升。

這個流程可以迭代幾輪，每輪模型越來越準確，能給出更可靠的偽標籤，讓下一輪訓練更好。

這就是選項 A 的意思：半監督式學習，充分利用少量有標籤資料和大量無標籤資料。

技術版：半監督式學習的常見方法與適用場景

半監督式學習的主要方法：偽標籤（Pseudo-labeling，如上述流程）、一致性正則化（Consistency Regularization，對同一張圖片做不同增強，要求模型輸出一致）、自監督學習（Self-supervised Learning，先讓模型完成預測遮蔽區域等任務，學習特徵表示，再用少量標籤微調）。

自監督學習和半監督學習的關係：近年很多半監督方法先做「自監督預訓練」（完全不用標籤，讓模型學習通用特徵），再用少量標籤做監督式微調。SimCLR、MoCo、DINO 等方法都是這個路線，在農業、醫療等標籤昂貴的領域表現出色。

半監督式學習的核心假設：連續性假設（同一類別的資料在特徵空間中形成連續的群，無標籤資料幫助描繪這個形狀）、低密度假設（分類邊界應該在資料密度低的地方，無標籤資料的分佈幫助找到低密度區域）。

為什麼出題者要考這題：標籤稀缺是農業、醫療、工業 AI 中最常見的現實挑戰。AI 規劃師必須能識別「有一些標籤」這個訊號，知道半監督學習是標籤不足時的首選策略。

05　陷阱

為什麼其他選項是錯的

B監督式學習（Supervised Learning）

字面在說什麼

用有標籤的訓練資料，讓模型學會輸入到輸出的映射，然後對新資料做預測。

為什麼不對

監督式學習只能使用有標籤的資料，那 70% 的無標籤照片就完全用不上。題目說「希望充分利用所有資料」，監督式學習直接浪費了 70% 的資料，不符合題目要求。

誰會選錯

沒注意「充分利用所有資料」這個關鍵條件，只看到「有標籤」就選監督式學習的人。有標籤資料可以用監督式學習，但題目的重點是也要用無標籤資料。

C非監督式學習（Unsupervised Learning）

字面在說什麼

完全不用標籤，讓模型自己從資料中找結構和模式。

為什麼不對

非監督式學習完全不使用標籤，那辛苦標好的 30% 有標籤資料就被浪費了。而且非監督學習的輸出通常是「群組」或「特徵表示」，不能直接輸出「這是炭疽病」的分類結果，無法直接滿足「識別病害類別」的需求。

誰會選錯

看到「70% 無標籤資料比較多」就選非監督式學習的人。多數資料沒有標籤，不代表應該忽略少數有標籤的資料。半監督式學習正是設計來兼顧兩者。

D強化式學習（Reinforcement Learning）

字面在說什麼

讓 AI Agent 在環境中試錯，根據即時獎勵學習最佳行動策略。

為什麼不對

這個場景是靜態資料集的分類任務，不是連續決策問題。強化式學習需要定義環境、動作、獎勵函數，對靜態影像分類來說完全沒有必要，也沒有意義。題目中的葉片照片是已收集好的靜態資料，不是需要 Agent 互動的動態環境。

半監督學習（Semi-supervised Learning）同時使用少量有標籤與大量無標籤資料訓練模型，解決標籤稀缺場景的核心學習策略
監督式學習（Supervised Learning）需要全部資料都有標籤才能訓練，標籤成本高且無標籤資料無法利用，是半監督學習想改善的對象
非監督式學習（Unsupervised Learning）完全不用標籤，僅從資料結構中學習，與半監督學習的定位不同但常作為干擾選項
資料標註（Data Annotation）為訓練資料加上人工標籤的過程，標註成本高是半監督學習興起的直接原因
遷移學習（Transfer Learning）將預訓練模型知識移轉到新任務，與半監督學習同為減少標籤需求的策略，實務上常搭配使用