四種學習方式對應哪種情境?
某企業評估於不同業務場景導入機器學習技術。下列哪一項應用情境與機器學習類型的搭配最為適當?
一家企業在不同業務場景評估導入機器學習,想為每個情境挑選對應的機器學習類型。
問你:下面哪一個「應用情境 + 機器學習類型」的搭配是正確的?
一句話總結
股價歷史資料沒有人工標籤、自動找出趨勢型態的做法,對應的是非監督式學習(Unsupervised Learning),這是四個選項中唯一搭配完全正確的。
先感受問題:四種學習方式,各自需要什麼「輸入」
機器學習依照「有沒有人工標記的答案」分成幾大類。想像一個學生的四種學習方式:
- 監督式(Supervised):老師給題目,每道題都有標準答案。學生學答案和題目的對應關係。對應 AI:有標記資料(每筆資料有正確答案)
- 非監督式(Unsupervised):老師給一堆題目,但沒有答案。學生自己找規律、歸類相似的題。對應 AI:沒有標記資料,模型自己找結構
- 強化式(Reinforcement):學生不斷嘗試,答對得分、答錯扣分,靠分數學習策略。對應 AI:透過環境回饋(獎勵/懲罰)調整策略
- 半監督式(Semi-supervised):老師只給少部分答案,大部分題目沒答案。學生混用兩種方式學。對應 AI:少量標記資料 + 大量未標記資料
逐一分析哪個選項搭配有誤
依序拆解四個選項,找出錯誤的搭配:
- 選項 A:「少量標記 + 大量未標記」→ 配的是「監督式」。錯!這明明是「半監督式學習」的定義。監督式學習需要全部資料都有標記,不能混入未標記資料
- 選項 B:「顧客點擊歷史標籤」→ 配的是「非監督式」。錯!有「歷史標籤(點擊是/否)」就有標記答案,是典型的監督式學習,不是非監督式
- 選項 C:「透過錯誤判斷的損失作為回饋」→ 配的是「監督式」。有疑慮,「損失函數回饋」在監督式和強化式都有,但題目說「錯誤判斷的損失作回饋訊號、持續調整策略」,這更接近強化式。不過「損失 back-propagation」在監督式也存在,這個選項有些模糊
- 選項 D:「歷史價格資料、找趨勢型態、沒有人工標註」→ 配的是「非監督式」。正確!完全符合非監督式學習的定義:沒有人工標記,讓模型自己在資料中找出群集或模式
- 「有回饋就是監督式」的慣性思考:選項 C 的「損失作為回饋」讓人直覺對應到監督式學習,但忽略了強化式學習也有回饋訊號,差別在於是靜態資料集的損失還是與環境互動的獎懲。這種慣性讓人容易把 C 誤判為正確,同時漏掉 D 才是搭配最精確的答案
選項 D 是唯一搭配完全正確的。
股價趨勢分型,為何是非監督式學習的標準案例
假設量化交易公司「晶榕投顧」要分析台積電過去 10 年的每日股價變動,找出反覆出現的價格型態(例如雙底型、頭肩頂、旗型),以預測未來走勢。
他們沒有人去標記「這段走勢是雙底型」「那段是頭肩頂」,而是讓 AI 模型自己在 2,500 個交易日的資料中尋找「相似的波動模式群組」。
AI 把相似的波動模式歸成一組,一組就是一種「型態」。沒有任何人事先定義這些型態,完全是資料本身的結構浮現出來的。
這正是非監督式學習的核心:沒有標記答案,讓模型自己找資料中的結構和群集。
這就是選項 D 講的:股價資料分析,將歷史價格變動模式劃分為若干趨勢型態,且未使用人工標註:非監督式學習。
技術版:四種學習方式的技術邊界
這四種學習方式的技術邊界在考試中常被混淆,以下是精確定義:
監督式學習(Supervised Learning):訓練資料的每一筆都有人工標記的目標值(label)。模型學習輸入特徵到目標值的映射。代表算法:線性回歸、決策樹、SVM、神經網路分類器。
非監督式學習(Unsupervised Learning):訓練資料沒有目標值。模型在沒有答案指引下自己找資料的內在結構。代表任務:群集(K-means)、降維(PCA)、異常偵測、生成模型(VAE、GAN)。
半監督式學習(Semi-supervised Learning):少量有標記資料 + 大量無標記資料。典型情境:標記成本高,只能少量標記,希望充分利用大量未標記資料。醫療影像是典型場景(標記需要醫師,成本極高)。
強化式學習(Reinforcement Learning):Agent(代理)在環境中採取行動,收到獎勵或懲罰,逐步學習最優策略。沒有預先定義的「正確答案」,只有回饋訊號。適合序列決策問題(遊戲 AI、自動駕駛、機器人控制)。
選項 C 的細節:「透過錯誤損失作為回饋訊號、調整策略」在強化式和監督式中都有類似概念,但強化式的關鍵是「與環境互動、得到即時回饋」,而監督式的回饋是靜態訓練集的損失。題目中說「持續調整策略」更偏強化式語境,搭配「監督式」是不精確的。
為什麼其他選項是錯的
A少量標記 + 大量未標記 → 監督式學習(錯誤搭配)
描述的情境是「少量標記影像 + 大量未標記影像」一起訓練,搭配的是「監督式學習」。
「少量標記 + 大量未標記」是半監督式學習(Semi-supervised Learning)的定義。監督式學習要求所有訓練資料都有標記,不能混入未標記資料。搭配了錯誤的學習類型。
以為「有標記資料就算監督式,不管有沒有混未標記」的人。關鍵是監督式需要「全部有標記」,半監督式才是「混用兩種資料」。
B顧客點擊歷史標籤 → 非監督式學習(錯誤搭配)
用顧客「是否點擊」的歷史記錄預測未來偏好,搭配「非監督式學習」。
「是否點擊」是明確的標記(1=點擊,0=未點擊),這是監督式學習的典型二元分類問題。非監督式學習的定義是「沒有標記」,有了「點擊標籤」就變成監督式了。搭配了錯誤的學習類型。
把「推薦系統」想成「不知道使用者喜歡什麼,所以是非監督式」的人,忽略了「點擊歷史」本身就是隱含標記(Implicit Label)。
C透過損失作為回饋持續調整策略 → 監督式學習(搭配不精確)
模型透過錯誤判斷的損失當回饋,持續調整策略,搭配「監督式學習」。
「透過回饋訊號持續調整策略」的描述更接近強化式學習(Reinforcement Learning)的語境。雖然監督式也有「損失函數」,但「調整策略」和「持續從環境回饋學習」是強化式的核心特徵。這個搭配不精確,在四個選項中是較明顯有問題的一個。
把「有損失回饋 = 監督式」當成唯一判斷標準的人。強化式也有回饋,區別在於是「靜態資料集的損失」還是「與環境互動後的獎懲訊號」。
同個考點下次怎麼變形
垃圾郵件過濾(Spam Detection)屬於哪種機器學習?
郵件有「垃圾」和「正常」兩個類別,訓練時有沒有標記?
監督式學習。訓練資料中每封郵件都被人工標記為「垃圾郵件(1)」或「正常郵件(0)」,模型學習郵件特徵到類別的映射。這是典型的二元分類(Binary Classification)問題,屬於監督式學習。
AlphaGo 學習圍棋,屬於哪種機器學習?
AlphaGo 是靠跟自己對弈學習的,有沒有標記?
強化式學習(加上自監督學習)。AlphaGo Zero 透過自我對弈(Self-play),每盤棋的結果(贏/輸)作為回饋訊號,模型學習在每個棋局狀態下選擇最優落子策略。這是強化式學習的典型應用:Agent 在環境中嘗試行動,收到最終結果的獎懲,調整策略。
客戶分群(Customer Segmentation)屬於哪種機器學習?
把客戶分成幾個群體,有沒有預先定義群體的標籤?
非監督式學習(群集算法)。公司不知道「正確的分群方式」是什麼,沒有人預先給每個客戶貼上「第1群」「第2群」的標籤。K-means 等群集算法自己在資料中找相似的客戶群,讓相似的客戶在同一群、不同群的客戶盡量不同。這是非監督式學習的核心任務。
為什麼醫療影像標記成本高,半監督學習特別適合醫療 AI?
醫療 AI 為什麼不直接用監督式,非要用半監督?
標記醫療影像需要專業醫師,每張 X 光片標記可能需要 30 分鐘,一個資料集 10 萬張要花大量人力和金錢。但醫院有幾十萬張「沒有標記」的影像,這些都是潛在的訓練資料。半監督學習可以用少量醫師標記的影像(幾千張)加上大量未標記影像,達到接近全部標記的效果,大幅降低標記成本。
自監督學習(Self-supervised Learning)和半監督學習有何差別?
兩個都聽起來像「自己學」,但有什麼不同?
半監督學習混合少量人工標記 + 大量未標記資料。自監督學習完全不需要人工標記,而是從資料本身構造訓練訊號(例如:遮住句子的一個詞,讓模型預測被遮住的詞:這就是 BERT 的訓練方式)。自監督學習是近年大語言模型的核心訓練範式,屬於非監督式的一種特殊形式,標記全部由資料自動生成,不需要任何人工介入。
想再往下看,這 5 個
- 監督式學習(Supervised Learning)使用有標記資料訓練模型,學習輸入到輸出的映射關係,代表任務包括分類和回歸
- 非監督式學習(Unsupervised Learning)在沒有標記資料的情況下讓模型自己發現資料結構,代表任務包括群集、降維和異常偵測
- 半監督式學習(Semi-supervised Learning)結合少量標記資料和大量未標記資料訓練,適合標記成本高的場景(如醫療影像、語音資料)
- 強化式學習(Reinforcement Learning)Agent 透過與環境互動、從獎懲訊號學習最優策略,適合序列決策問題,代表應用包括遊戲 AI 和機器人控制
- 自監督學習(Self-supervised Learning)從資料本身自動生成訓練標籤的學習方式,是 BERT、GPT 等大語言模型的核心訓練範式,大幅降低對人工標記的依賴