哪個特徵「不符合」非監督式學習?
下列何者不符合非監督式學習(Unsupervised Learning)的典型特徵?
這題給你幾個關於非監督式學習(Unsupervised Learning)的描述,請找出其中不對的那一個。
問你:下列哪一個描述不符合非監督式學習的典型特徵?
一句話總結
非監督式學習不需要標籤,自己找規律;「學習輸入特徵與既定目標標記之間的對應關係」是監督式學習(Supervised Learning)的定義,不符合非監督式學習。
先感受問題:沒有老師的機器,怎麼學?
假設你是「鮮旅行」旅遊平台的資料分析師。公司有 10 萬筆用戶行為數據:點擊記錄、搜尋關鍵字、停留時間,但這些數據沒有任何人工標記,沒有人說「這個用戶是背包客」「那個用戶是家庭旅遊客」。
主管說:「幫我把這 10 萬個用戶分成幾個不同類型,讓行銷可以針對不同類型發不同推薦。」
你面臨的困境:沒有標準答案,沒有人告訴你「正確答案是分成 5 類」,你只能讓模型自己去分析數據的相似性,找出自然的分群結構。
這就是非監督式學習(Unsupervised Learning)的用武之地:在沒有標籤、沒有老師的情況下,從數據本身找出結構。
監督式學習 vs. 非監督式學習:差在哪?
在「鮮旅行」理解這個差別,要先想像兩種訓練方式:
- 有老師教(監督式):每筆數據都有標籤,例如「這個用戶是背包客(1)」「那個用戶不是(0)」。模型學的是「哪些特徵對應哪個標籤」,有固定的正確答案可以對照
- 沒有老師教(非監督式):只有原始數據,沒有標籤。模型自己找「哪些用戶的行為很像」,把相似的聚在一起,不靠任何外部定義的類別
- 標籤成本高:要標記 10 萬筆用戶需要人工逐一判斷,成本極高。非監督式學習的優點就是不需要標籤
- 目的不同:監督式學習的目的是「預測已知類型」,非監督式是「發現未知結構」。前者要有明確的目標標記,後者不需要
- 評估方式不同:監督式有準確率可以量化,非監督式的「好不好」較難客觀評估,通常靠業務解釋能力判斷
非監督式學習怎麼幫「鮮旅行」分群用戶
「鮮旅行」用 K-means 分群演算法(一種非監督式學習方法),把 10 萬名用戶的行為數據丟進去,不告訴模型「正確答案是幾群」,讓它自己依據行為相似性分群。
結果出來:模型自動找出了 4 個行為群組:深度旅遊者(長停留、搜尋小眾景點)、親子旅客(搜尋親子設施、寬敞房型)、商務出差者(週一週五、市中心飯店)、快閃週末族(短停留、促銷敏感)。
這個過程完全沒有人告訴模型「這些特徵對應的類別標記是什麼」,模型純粹依據數據內部的相似性找出結構。
注意選項 D 說「學習輸入特徵與既定目標標記之間的對應關係」,這句話的關鍵是「既定目標標記」。有「標記」就代表有老師、有答案,這是監督式學習的特徵,不是非監督式學習。
這就是選項 D 為什麼不符合非監督式學習:模型主要學習輸入特徵與既定目標標記之間的對應關係,是監督式學習的定義。
技術版:三種學習範式的位置與對比
機器學習依「是否有標籤」分成三大範式,考試最常考區別:
監督式學習(Supervised Learning):每筆訓練數據都有輸入(特徵)和輸出(標籤)。模型學習輸入到輸出的對應關係(映射函數)。典型算法:線性迴歸、決策樹、SVM、神經網路。典型任務:分類、迴歸。
非監督式學習(Unsupervised Learning):只有輸入數據,沒有標籤。模型自己找數據的結構、分群、降維、生成。典型算法:K-means、階層式分群、PCA、自動編碼器。典型任務:分群(Clustering)、降維(Dimensionality Reduction)、異常偵測。
強化式學習(Reinforcement Learning):沒有標籤,但有「獎懲回饋」。模型透過試錯學習最大化長期獎勵。典型應用:遊戲 AI、機器人控制、推薦系統優化。
為什麼出題者要考這題:AI 應用規劃師在選擇演算法時,第一個問題就是「我有標籤嗎?」。有標籤選監督式,沒標籤選非監督式。搞混了會選錯整個技術方向,規劃出根本跑不起來的系統。
為什麼其他選項是錯的
A模型可依據資料中的特徵相似性進行自動分群
模型根據數據特徵的相似程度,自動把相似的數據點歸在一起。
這正是非監督式學習的核心用途:分群(Clustering)。K-means 就是典型例子,完全依靠特徵相似性自動分組,不需要人工標籤。A 符合非監督式學習,不能選。
沒看到題目是「不符合」的反向選題,直接選感覺「對的」選項的人。
B訓練過程中不需仰賴事先定義的標籤資料
訓練時不需要人工標記好的答案,模型純粹從原始數據學習。
「不需要標籤」幾乎是非監督式學習的定義本身,這是它與監督式學習最根本的區別。B 完全符合非監督式學習,不能選。
不熟悉非監督式學習定義,隨機猜測的人。「不需標籤」是非監督式最重要的關鍵字,要記住。
C常用於探索資料的潛在結構或隱含模式
用來發現數據中隱藏的規律,比如用戶行為中隱含的分群結構,或高維數據中的潛在維度。
「探索潛在結構」是非監督式學習的核心使用情境,特別是在業務探索、數據理解、異常偵測等場景。C 符合非監督式學習,不能選。
覺得「潛在結構」這個詞聽起來比較模糊,不確定是否符合非監督式學習定義的人。記住:非監督式就是要找「你還不知道的結構」。
同個考點下次怎麼變形
下列哪個任務屬於非監督式學習的應用?
判斷具體任務屬於哪種學習方式,要看「有沒有標籤」。
客戶分群(沒有預先定義的群組標籤)屬於非監督式學習。垃圾郵件分類(每封郵件已標記是否為垃圾郵件)屬於監督式學習。判斷標準:有沒有人告訴模型「正確答案是什麼」。
K-means 演算法屬於哪種學習範式?
K-means 常被提到,但很多人不確定它屬於哪種學習方式。
K-means 屬於非監督式學習,具體是分群(Clustering)算法。它依據數據點之間的距離,自動把數據分成 K 個群組,不需要任何標籤。常考的非監督式算法還有:階層式分群、DBSCAN、PCA(降維)。
為什麼說「非監督式學習的評估比較困難」?
監督式學習有準確率,非監督式怎麼知道分得好不好?
因為沒有正確答案可以對照。監督式學習可以計算預測是否與標籤一致。非監督式學習只能用內部指標(如群內距離、輪廓係數)衡量分群品質,或依賴業務人員判斷「分出來的群組有沒有意義」。
非監督式學習最適合在什麼情況下使用?
既然非監督式不需要標籤,那是不是什麼情況都適合用?
最適合的情況:標籤成本極高或根本沒有標籤、業務目的是「探索發現」而非「預測已知類別」、數據量大但人工標記不可行。常見場景:客戶分群、異常偵測、推薦系統的用戶畫像建立。
半監督式學習(Semi-supervised Learning)是什麼?
除了監督式和非監督式,還有「中間地帶」嗎?
半監督式學習介於兩者之間:有少量標籤數據 + 大量無標籤數據。模型先用有標籤的部分學習,再用無標籤的部分擴展學習。常見於醫療影像(只有少數樣本有專家標注)、網頁分類(少量人工審核 + 大量未審核頁面)等場景。
想再往下看,這 5 個
- 非監督式學習(Unsupervised Learning)無需標籤、從數據自身結構學習模式,分群與降維是兩大核心應用場景
- 監督式學習(Supervised Learning)以標籤數據學習輸入到輸出的映射,與非監督式學習的關鍵差異在於「是否需要標記答案」
- K 均值分群(K-Means Clustering)非監督式學習最代表性的分群算法,依特徵相似性自動把數據分成 K 群,無需任何標籤
- 降維處理(Dimensionality Reduction)非監督式學習的另一大任務,把高維數據壓縮到低維並保留重要結構,PCA 是代表算法
- 半監督學習(Semi-supervised Learning)結合少量標籤數據與大量無標籤數據訓練,介於監督與非監督之間,易與非監督式學習混淆