iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論

30% 有標籤、70% 無標籤,該用哪種學習方法?

原題 31

某農場收集了大量作物葉片影像,但只有 30% 的影像有病害類別標註,其餘 70% 的影像沒有任何標籤。農場希望充分利用所有資料來訓練病害識別模型。這種情況最適合使用哪一種學習方法?

白話

題目的情境是:有一些有標籤的資料(30%),也有大量沒有標籤的資料(70%),想要兩種資料都用上。這是一個「標籤不完整」的場景。

問你:同時有少量有標籤資料和大量無標籤資料,該採用哪種學習方法?

點選你的答案。

01 總結

一句話總結

少量有標籤 + 大量無標籤,兩種資料都想用,就是半監督式學習的設計場景。

02 情境

先感受問題:標籤貴,照片便宜,怎麼辦?

假設「青農科技」為雲林蕃茄農場開發 AI 病害識別系統。農場老闆的 iPhone 一天能拍幾千張葉片照片,三個月下來累積了 20 萬張。

但給照片貼標籤(「這是炭疽病」「這是晚疫病」「這是健康葉片」)需要請農業顧問一張一張看。顧問費用不便宜,一個月只能標完 6,000 張,三個月標了 18,000 張,占 20 萬張的 9%。

問題來了:剩下的 18 萬多張沒有標籤,但都是真實的葉片照片,裡面有大量有價值的視覺資訊。如果只用那 18,000 張有標籤的訓練,丟掉 18 萬張,是很大的浪費。

農場老闆問:「有沒有辦法把那 18 萬張也用上?」

這就是半監督式學習解決的問題:在少量有標籤資料和大量無標籤資料混合的情況下,讓模型同時從兩種資料中學習,達到比只用標籤資料更好的效果。

03 對照

只用標籤資料或只用無標籤資料,各有什麼問題

在半監督式學習出現之前,面對「標籤不足」的問題,通常只能選一邊:

  1. 只用有標籤的 18,000 張:可以直接用監督式學習,但資料量不足,模型泛化能力差,對新的葉片場景容易失準
  2. 花更多錢標籤:繼續請顧問標,但標籤費用線性增加,農場預算有限
  3. 只用無標籤的 18 萬張做非監督分群:可以找出「相似外觀的葉片群」,但無法直接告訴你哪群是什麼病,仍需人工對應
  4. 等累積更多標籤再做:時間成本太高,農場現在就需要識別系統
  5. 丟掉無標籤資料:最簡單但最浪費,18 萬張照片裡有大量關於葉片外觀的知識,不用可惜
04 解法

半監督式學習怎麼同時用兩種資料

半監督式學習(Semi-supervised Learning)的核心假設是:即使沒有標籤,大量的無標籤資料仍然包含關於資料分佈的有用資訊。

「青農科技」採用的流程長這樣:

第一步:用有標籤資料訓練初始模型。先用 18,000 張有標籤的照片,訓練出一個基礎的病害分類模型,雖然不夠準確,但已經有基本判斷能力。

第二步:用初始模型對無標籤資料做偽標籤(Pseudo-labeling)。把 18 萬張無標籤照片餵進模型,對預測信心度高的照片(例如「這張是炭疽病的機率 95%」)自動打上暫時標籤。

第三步:混合真實標籤和偽標籤一起重新訓練。把 18,000 張真實標籤 + 預測信心高的偽標籤合在一起,重新訓練模型,讓它見識到更多樣的葉片樣貌,泛化能力提升。

這個流程可以迭代幾輪,每輪模型越來越準確,能給出更可靠的偽標籤,讓下一輪訓練更好。

這就是選項 A 的意思:半監督式學習,充分利用少量有標籤資料和大量無標籤資料

技術版:半監督式學習的常見方法與適用場景

半監督式學習的主要方法:偽標籤(Pseudo-labeling,如上述流程)、一致性正則化(Consistency Regularization,對同一張圖片做不同增強,要求模型輸出一致)、自監督學習(Self-supervised Learning,先讓模型完成預測遮蔽區域等任務,學習特徵表示,再用少量標籤微調)。

自監督學習和半監督學習的關係:近年很多半監督方法先做「自監督預訓練」(完全不用標籤,讓模型學習通用特徵),再用少量標籤做監督式微調。SimCLR、MoCo、DINO 等方法都是這個路線,在農業、醫療等標籤昂貴的領域表現出色。

半監督式學習的核心假設:連續性假設(同一類別的資料在特徵空間中形成連續的群,無標籤資料幫助描繪這個形狀)、低密度假設(分類邊界應該在資料密度低的地方,無標籤資料的分佈幫助找到低密度區域)。

為什麼出題者要考這題:標籤稀缺是農業、醫療、工業 AI 中最常見的現實挑戰。AI 規劃師必須能識別「有一些標籤」這個訊號,知道半監督學習是標籤不足時的首選策略。

05 陷阱

為什麼其他選項是錯的

B監督式學習(Supervised Learning)

字面在說什麼

用有標籤的訓練資料,讓模型學會輸入到輸出的映射,然後對新資料做預測。

為什麼不對

監督式學習只能使用有標籤的資料,那 70% 的無標籤照片就完全用不上。題目說「希望充分利用所有資料」,監督式學習直接浪費了 70% 的資料,不符合題目要求。

誰會選錯

沒注意「充分利用所有資料」這個關鍵條件,只看到「有標籤」就選監督式學習的人。有標籤資料可以用監督式學習,但題目的重點是也要用無標籤資料。

C非監督式學習(Unsupervised Learning)

字面在說什麼

完全不用標籤,讓模型自己從資料中找結構和模式。

為什麼不對

非監督式學習完全不使用標籤,那辛苦標好的 30% 有標籤資料就被浪費了。而且非監督學習的輸出通常是「群組」或「特徵表示」,不能直接輸出「這是炭疽病」的分類結果,無法直接滿足「識別病害類別」的需求。

誰會選錯

看到「70% 無標籤資料比較多」就選非監督式學習的人。多數資料沒有標籤,不代表應該忽略少數有標籤的資料。半監督式學習正是設計來兼顧兩者。

D強化式學習(Reinforcement Learning)

字面在說什麼

讓 AI Agent 在環境中試錯,根據即時獎勵學習最佳行動策略。

為什麼不對

這個場景是靜態資料集的分類任務,不是連續決策問題。強化式學習需要定義環境、動作、獎勵函數,對靜態影像分類來說完全沒有必要,也沒有意義。題目中的葉片照片是已收集好的靜態資料,不是需要 Agent 互動的動態環境。

誰會選錯

記憶中「強化學習很先進」所以直覺選 D 的人。先進不等於適用,強化學習有其特定的應用場景,在靜態資料集分類上是錯誤選擇。

06 變形

同個考點下次怎麼變形

變形 1

偽標籤(Pseudo-labeling)方法的核心概念是什麼?

直覺

「偽標籤」聽起來不可靠,為什麼有用?

答案

偽標籤的邏輯是:用初始模型對無標籤資料預測,預測信心度高的結果可以暫時當作「正確答案」(偽標籤),加入訓練集讓模型學習更多樣的資料。關鍵是只用信心度高的預測(例如機率 > 0.9),低信心度的預測不要用,否則噪音太多反而讓模型退步。

變形 2

半監督式學習和遷移學習有什麼相似和不同?

直覺

兩個都是為了應對標籤不足的問題,差在哪?

答案

遷移學習是用其他任務(例如 ImageNet 上訓練好的模型)的知識遷移到新任務,不需要同領域的無標籤資料。半監督式學習是利用同一任務的無標籤資料和少量標籤資料。實務上兩者常結合:先做遷移學習(載入預訓練模型),再用半監督方法充分利用本領域的無標籤資料。

變形 3

在農業 AI 中,標籤資料為什麼特別昂貴?

直覺

標照片不是讓農民自己貼就好嗎?

答案

農業病害識別需要具備專業知識的人員(農業技師、植物病理學家)才能準確標註,普通農民可能認錯病種。此外,不同生長階段、不同光線條件的同一種病,外觀可能差異很大,需要豐富經驗才能準確判斷。這讓標籤工作無法大規模外包,導致標籤成本高、速度慢。

變形 4

如果有標籤資料只有 1%,半監督式學習還有效嗎?

直覺

標籤越少效果越差,少到什麼程度就沒用了?

答案

現代半監督和自監督方法在標籤非常少時仍有一定效果,尤其是先用自監督學習從無標籤資料預訓練特徵提取器,再用極少量標籤做分類頭微調。Meta AI 的 DINO 等方法在標籤只佔 1% 的情況下,準確率已遠超傳統監督式學習用全部標籤訓練的水準。但具體需要多少標籤才夠,仍依任務難度而異。

變形 5

主動學習(Active Learning)跟半監督式學習的差別是什麼?

直覺

兩個都是應對標籤不足的策略,有什麼不同?

答案

半監督式學習是把已有的無標籤資料利用起來,讓模型從中學習。主動學習是讓模型主動選擇「最值得標籤」的資料請人類標記,例如模型最不確定的那些樣本,優先去標,每次只標最有價值的幾張,讓標籤預算發揮最大效益。兩者可以結合使用:主動學習決定要標哪些,半監督式學習利用其餘未標的資料。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 115 年第一次 iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論 第 31 題

查看官方原文 PDF