iPAS AI 應用規劃師 中級 科目三 機器學習技術與應用

DBSCAN 中不符合條件的點被歸為什麼?

原題 04

在執行 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)群集分析時,若某資料點鄰域內的樣本數不足以形成核心點(Core Point),且該點未被任何核心點的鄰域所包含,也未與其他群集形成密度可達關係(Density Reachability),此資料點最終將被歸類為哪一種類型?

白話

DBSCAN 是一種依「密度」來分群的演算法。它把資料點分成三種角色。題目描述了一個很孤立的點:它自己附近沒什麼鄰居(無法成為核心點),也沒有被任何「人口密集」的核心點的勢力範圍涵蓋,更沒有跟任何群集接上線。

問你:這種完全孤立的點,在 DBSCAN 中會被歸為哪一類?

點選你的答案。

01 總結

一句話總結

DBSCAN 中,既不是核心點、又沒有被任何核心點覆蓋的孤立資料點,最終被標記為雜訊點(Noise Point),也就是「異常值」,不屬於任何群集。

02 情境

先感受問題:用密度找出離群的店

假設統一超商的分析師要用 DBSCAN 對全台灣的門市分布做地理分群,找出「商圈群落」。

把每家門市想成地圖上的一個點:

  • 台北市中心有 100 家門市密集在一起 → 這一大群形成一個「商圈群落」。
  • 台東某個部落附近只有 1 家,周圍幾公里內沒有其他門市 → 這一家沒辦法歸入任何群落。

那台東那家孤立門市怎麼辦?它既沒辦法自己成為「核心」(周圍沒人),也沒有被任何「密集商圈」拉進去,DBSCAN 的答案是:把它標記為「雜訊」。這代表它是一個異常值,不是主流商圈的一部分。

03 對照

K-Means 碰到這種情況怎麼處理

  1. K-Means 強制分配:K-Means 一定要把每個點歸入某個群集,台東那家也會被硬塞進最近的群,即使它跟那個群根本相差十萬八千里。
  2. 異常值影響中心:K-Means 的群集中心會被孤立點拉偏,讓整個群的「重心」不代表真正的密集區。
  3. 不識別異常值:K-Means 沒有「這個點不屬於任何群」的概念,沒辦法輸出「異常值列表」。
  4. 形狀限制:K-Means 假設群集是球形的,對於蜿蜒的河流旁的門市群落、或細長形分布,效果很差。
  5. 需要事先指定 K:台灣到底有幾個商圈?K-Means 要你先告訴它答案,但你不知道。
04 解法

DBSCAN 的三種點分類

DBSCAN 用兩個參數來定義「密集」:ε(鄰域半徑)和 MinPts(最少鄰居數)。

  • 核心點(Core Point):以 ε 為半徑的圓內,有 MinPts 個以上的鄰居。台北信義區的門市,每家 500 公尺內都有超過 10 家,每家都是核心點。
  • 邊界點(Border Point):自己不是核心點(鄰居不夠多),但在某個核心點的 ε 鄰域內。台北郊區邊緣的門市,附近只有幾家,但剛好被信義區核心點的圓圈蓋到。
  • 雜訊點(Noise Point):既不是核心點,也沒有被任何核心點的鄰域包含。台東部落那家孤立門市,四周空曠,完全被排除在外。

DBSCAN 最大的優點:自動輸出雜訊點,不需要事先指定群集數量,還能找出任意形狀的群集。

這就是選項 B 講的:雜訊點(Noise Point)

技術版:DBSCAN 在機器學習中的位置與應用

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)屬於非監督式學習中的密度型分群演算法,是繼 K-Means 之後最廣泛使用的分群方法之一。

在 AI 領域的位置:非監督學習 → 分群 → 密度型分群。相較於距離型(K-Means)和層次型(Hierarchical Clustering),DBSCAN 屬於密度型,特別擅長發現不規則形狀的群集和識別異常值。

實務應用:

  • 地理資料分析:找出人口聚集區、交通熱點。
  • 異常偵測:雜訊點天然就是異常值候選,不需要額外後處理。
  • 影像分割:識別像素密集區域。
  • 社交網絡分析:找出緊密連結的社群群落。

跟 K-Means 的核心對比:K-Means 優先用在資料量大、群集近似球形、需要快速執行的情境;DBSCAN 優先用在需要識別異常值、群集形狀不規則、事先不知道群集數量的情境。

為什麼出題者要考這題:DBSCAN 的三種點分類(核心點、邊界點、雜訊點)是理解密度型分群的基礎,也是區分 DBSCAN 和 K-Means 能力差異的關鍵知識點。

05 陷阱

為什麼其他選項是錯的

A鄰近點(Neighbor Point)

字面在說什麼

聽起來像「在某個點的鄰近區域內的點」,也就是有鄰居的點。

為什麼不對

「鄰近點」不是 DBSCAN 定義的正式術語。DBSCAN 的三種點類型是:核心點、邊界點、雜訊點。題目描述的點明確說了「未被任何核心點的鄰域所包含」,表示它連邊界點都不是,更不可能叫做「鄰近點」。

誰會選錯

看到「鄰域內的樣本數」就聯想到「鄰近點」這個說法,但這不是 DBSCAN 的正式分類術語。記住:DBSCAN 只有三類點,沒有「鄰近點」這個類別。

C邊界點(Border Point)

字面在說什麼

邊界點是在群集邊緣的點,自己不是核心點,但在某個核心點的鄰域內。

為什麼不對

題目明確說了「未被任何核心點的鄰域所包含」,這直接排除了邊界點的可能性。邊界點的定義是「被至少一個核心點的 ε 圓覆蓋」,但這個點連這個條件都不符合。

誰會選錯

知道「邊界點也不是核心點」但沒仔細看「未被任何核心點的鄰域包含」這個關鍵條件的人。題目故意把邊界點的排除條件明確寫出來,就是要考你能不能抓到這個細節。

D潛在點(Potential Point)

字面在說什麼

聽起來像「有潛力成為某個群集一部分」的點。

為什麼不對

「潛在點」完全不是 DBSCAN 的術語,這個分類根本不存在。DBSCAN 只有核心點、邊界點、雜訊點三種。這個選項是干擾選項。

誰會選錯

對 DBSCAN 不熟悉,又覺得「潛在點」聽起來合理的人。遇到陌生術語,首先要問「這個名詞是不是真正存在的 DBSCAN 概念?」。

06 變形

同個考點下次怎麼變形

變形 1

DBSCAN 的 ε 和 MinPts 怎麼選?

直覺

兩個參數直接決定哪些點是核心點,影響整個分群結果。

答案

ε 通常用 k-distance graph(計算每個點到第 k 近鄰的距離後排序,找「手肘點」)來選。MinPts 通常設為資料維度的兩倍以上。兩個參數對結果很敏感,需要領域知識搭配試驗。

變形 2

DBSCAN 在高維資料上效果為何會變差?

直覺

維度越高,距離計算越奇怪。

答案

高維空間中「維度詛咒」讓所有點之間的距離趨於一致,密度的概念失去意義。ε 在高維中很難設定,幾乎所有點都可能成為雜訊點。解法是先降維(PCA)再跑 DBSCAN。

變形 3

雜訊點一定是「壞的」資料嗎?

直覺

雜訊聽起來很負面,好像是要丟掉的資料。

答案

不一定。在詐欺偵測中,「雜訊點」可能正是最有價值的異常行為。在地理分析中,偏遠地區的孤立門市可能是策略性布點。雜訊點的「意義」要看業務情境,不能一概而論。

變形 4

DBSCAN 和 K-Means 分別適合什麼情境?

直覺

兩種都是分群,但各有擅長。

答案

K-Means 適合:群集近似球形、資料量大、計算資源有限、已知群集數。DBSCAN 適合:群集形狀不規則、需要自動識別異常值、不知道群集數量、有明顯的密度差異。

變形 5

密度可達(Density Reachable)和密度連通(Density Connected)有什麼差?

直覺

DBSCAN 分群的原理是把「密度可達」的點連成一個群集。

答案

密度可達是有方向性的:點 A 可以透過一系列核心點「走到」點 B。密度連通是對稱的:點 A 和點 B 都可以從某個共同核心點密度可達。同一個群集內的所有點都互相密度連通。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 114 年第二梯次 iPAS AI 應用規劃師 中級 科目三 機器學習技術與應用 第 4 題

查看官方原文 PDF