iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論

機器學習五種學習模式,哪個說法是錯的?

原題 43

關於機器學習不同的學習模式,下列敘述何者錯誤? 1. 監督式學習(Supervised Learning)透過已標註資料學習輸入與目標之間的對應關係,常見任務包含分類與數值預測。 2. 非監督式學習(Unsupervised Learning)雖不需標註資料,但通常需預先定義每筆資料的正確輸出類別以利模型收斂。 3. 半監督式學習(Semi-supervised Learning)在訓練過程中僅利用未標註資料進行特徵學習,並不涉及標註資料。 4. 自監督式學習(Self-supervised Learning)的訓練方式與監督式學習相同,皆需人工逐筆提供標註資料。 5. 強化式學習(Reinforcement Learning)透過與環境互動並依據回饋訊號調整策略,以優化決策行為。 6. 自監督式學習(Self-supervised Learning)通常利用資料本身產生訓練目標,以降低對人工標註資料的依賴。

白話

題目列出六個關於機器學習不同學習模式的敘述,涵蓋監督式、非監督式、半監督式、自監督式與強化式學習。

問你:六個敘述中,哪幾個對機器學習模式的描述是錯誤的?

點選你的答案。

01 總結

一句話總結

第 2 句混淆了非監督與監督的定義,第 3 句說反了半監督的核心特徵,第 4 句誤解了自監督不需人工標註的本質,錯誤的是第 2、3、4 句,答案是 D

02 情境

先感受問題:同樣叫「學習」,但資料準備方式完全不同

想像你是「智慧工廠」的 AI 工程師,正在幫公司評估五種學習方式哪個最適合。你手上有一批產品影像,其中有標好「良品/瑕疵品」的 1000 張,沒有標籤的有 10 萬張。

你要分辨的是:哪種方法需要人工標籤?哪種方法自己找規律?哪種方法用少量標籤加大量無標籤?哪種方法讓資料自己出題目考自己?

這五種方式各有特色,但考試最常出的陷阱是:把某種方法的「標籤需求」描述混淆,讓你以為非監督需要定義輸出、或自監督需要人工標記。一旦搞清楚每種方法的「資料準備方式」,這題就很容易了。

03 對照

五種學習模式混淆時的五個典型誤解

  1. 把非監督說成監督:以為非監督也需要「正確答案」,但非監督恰恰是在沒有任何標籤下自己找資料的內在結構
  2. 把半監督說成純非監督:以為半監督只用未標註資料,但「半」的意思就是一半標、一半沒標,少量標籤是關鍵成分
  3. 把自監督說成監督:以為需要人工逐筆提供標籤,但自監督讓資料自己生成標籤(例如把句子蓋住一部分,讓模型猜被蓋的字)
  4. 把強化式學習跟有監督混淆:以為強化學習也需要標籤資料,但強化學習的「老師」是環境給的獎懲訊號,不是人工標記
  5. 以為學習方式是固定不變的:實務上一個專案可能混用多種學習方式,例如先用自監督做預訓練,再用監督式微調

在「智慧工廠」的情境中,如果工程師搞混了這五種方式,很可能用錯方法、浪費大量標注成本,或者選了根本不能用的架構。

04 解法

五種學習模式的核心區別

先把五種方法的「資料需求」排成一張心智圖:

監督式學習(Supervised Learning):需要完整的人工標籤。輸入一張影像,標籤說「這是瑕疵品」。模型學「輸入 → 正確輸出」的對應關係。分類、迴歸都屬於這類。敘述 1 說「透過已標註資料學習對應關係,常見分類與數值預測」,完全正確。

非監督式學習(Unsupervised Learning):完全不需要標籤。模型在 10 萬張沒有標籤的影像中自己找「哪些影像長得像,可以歸為一群」。不需要預先定義正確輸出。敘述 2 說「需要預先定義每筆資料的正確輸出類別」,這是監督式的說法,完全錯誤。

半監督式學習(Semi-supervised Learning):同時使用少量標籤資料加大量無標籤資料。1000 張有標籤的教模型基本概念,10 萬張沒標籤的幫模型更廣泛地學特徵。敘述 3 說「只用未標註資料進行特徵學習」,這是非監督的說法,完全錯誤。

自監督式學習(Self-supervised Learning):讓資料自己當老師,不需要人工標記。最典型的例子是語言模型訓練:把一句話裡的一個字蓋住,讓模型猜那個字,這個「被蓋的字」就是自動生成的標籤,不需要人工。敘述 4 說「需人工逐筆提供標註資料」,完全錯誤。敘述 6 說「通常利用資料本身產生訓練目標,以降低對人工標註的依賴」,完全正確。

強化式學習(Reinforcement Learning):透過與環境互動、根據獎懲訊號調整策略。不需要標籤資料,「老師」是環境的回饋。敘述 5 說「透過與環境互動並依據回饋訊號調整策略」,完全正確。

三個錯誤的敘述是 2、3、4,這就是選項 D 講的:2、3、4

技術版:五種學習模式在 AI 發展史的位置

這五種學習模式不是同時發明的,理解它們出現的順序,有助於記憶為什麼各有不同的資料需求。

監督式學習是最早發展、最成熟的方向,1980-1990 年代就有。需要大量人工標籤,這也是早期 AI 最大的瓶頸,俗稱「標籤問題」。

非監督式學習同樣歷史悠久,聚類(Clustering)和降維(Dimensionality Reduction)是主要應用,不需要標籤,但解釋性和精度不如監督式。

半監督式學習是解決「標籤貴、資料多」問題的妥協方案,大約 2000 年代開始流行。現實中取得大量無標籤資料便宜,人工標注很貴,半監督充分利用兩者。

強化式學習理論早在 1950 年代就有,但 AlphaGo(2016)讓它廣為人知。適合「序列決策」問題,像遊戲、機器手臂、推薦系統,不需要標籤,需要能與環境互動。

自監督式學習是近年大語言模型(LLM)的核心訓練方式,GPT、BERT 都用這個方法。關鍵突破是:讓資料自己產生標籤,幾乎不需要人工,解放了模型規模的上限。

為什麼出題者要考這題:AI 應用規劃師必須知道每種學習方式的資料需求差異,才能在規劃專案時正確估算標注成本、選擇合適架構。把自監督誤認為需要人工標注,會嚴重高估預訓練成本。

05 陷阱

為什麼其他選項是錯的

A2、3、6

字面在說什麼

認為第 6 句「自監督學習利用資料本身產生訓練目標,以降低對人工標注的依賴」是錯誤的。

為什麼不對

第 6 句是完全正確的自監督學習定義。自監督的核心就是讓資料自己產生訓練目標,例如 BERT 把文字蓋住讓模型猜,這個被蓋的字就是自動生成的標籤。選 A 代表誤把正確的 6 當錯誤,同時放過了真正錯誤的第 4 句。

誰會選錯

對「自監督」這個概念不熟悉、以為資料自動產生標籤聽起來太奇怪的人。這是近年才廣為人知的概念,GPT 系列的預訓練就用這個方法。

B2、4、5

字面在說什麼

認為第 5 句「強化式學習透過與環境互動並依據回饋訊號調整策略」是錯誤的。

為什麼不對

第 5 句是強化式學習的標準定義,完全正確。強化學習的核心機制就是「與環境互動 + 獎懲回饋 + 調整策略」,這三個要素缺一不可。選 B 代表誤把正確的 5 當錯誤,放過了真正錯誤的第 3 句。

誰會選錯

對強化式學習的定義記憶模糊的人。關鍵字:「環境互動」「回饋訊號」「策略調整」,三個關鍵字都出現就是強化式學習的正確描述。

C1、3、6

字面在說什麼

認為第 1 句「監督式學習透過已標註資料學習對應關係,常見任務包含分類與數值預測」是錯誤的。

為什麼不對

第 1 句是監督式學習最基本的定義,完全正確。已標注資料、學習輸入輸出對應、分類與迴歸(數值預測)正是監督式學習的三個標誌特徵。選 C 代表對最基礎的監督式學習定義都搞錯了。

誰會選錯

幾乎不會有人選錯 1,選 C 通常是因為對整題理解有誤。如果你看到選項 C 覺得有道理,建議先重新讀一遍第 1 句,確認「已標注資料 + 分類/迴歸」是否是監督式學習的定義。

06 變形

同個考點下次怎麼變形

變形 1

半監督式學習(Semi-supervised Learning)最適合什麼情境?

直覺

感覺是介於監督和非監督之間的折衷方案,但什麼時候用最有優勢?

答案

最適合「標籤資料昂貴但無標籤資料充足」的情境,例如:醫療影像診斷(標注需要醫師,成本極高)、語音識別(錄音便宜但轉錄昂貴)。少量標籤定方向,大量無標籤學特徵,能用最少標注成本達到接近全監督的效果。

變形 2

GPT 系列語言模型的預訓練(Pre-training)屬於哪種學習方式?

直覺

GPT 看了那麼多文字,應該有人在後面一直標注資料吧?

答案

屬於自監督式學習。GPT 的訓練目標是「預測下一個字」,每個位置的「下一個字」就是自動從原始文字中產生的標籤,完全不需要人工標注。訓練完再用少量人工標注的資料做微調(Fine-tuning),這部分才是監督式學習。

變形 3

強化式學習中的「獎懲訊號」等同於監督式學習的「標籤」嗎?

直覺

都是「告訴模型對不對」,感覺差不多?

答案

不一樣。監督式學習的標籤是「每筆輸入對應的正確輸出」,提供精確的目標。強化式學習的獎懲是環境在一系列動作之後給的回饋,通常是稀疏的(只有最後才知道得幾分),且不告訴模型「哪個動作是正確的」。強化學習的難點正是在「稀疏獎勵」中找出哪個決策對了。

變形 4

非監督式學習最常用於什麼任務?

直覺

既然沒有標籤,是不是什麼都做不了?

答案

非監督式學習最常用於:聚類(Clustering,把相似的資料分組)、降維(Dimensionality Reduction,把高維資料壓縮成低維)、異常偵測(Anomaly Detection,找出與大多數資料不同的點)。這些任務不需要人告訴模型「正確答案是什麼」,只要讓模型自己發現資料的內在結構。

變形 5

為什麼大型語言模型(LLM)不用監督式學習做預訓練,而要用自監督?

直覺

監督式學習效果不是更精確嗎?

答案

訓練 LLM 需要數兆個 token 的資料,如果每個 token 都要人工標注,成本是天文數字。自監督讓網路上現有的文字直接變成訓練資料,不需要標注成本,規模可以無限放大。這就是為什麼 GPT-3 能用 3000 億個 token 預訓練,如果換成監督式,根本負擔不起那個標注費用。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 115 年第一次 iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論 第 43 題

查看官方原文 PDF