iPAS AI 應用規劃師中級　科目三　機器學習技術與應用

DBSCAN 中不符合條件的點被歸為什麼？

原題 04

在執行 DBSCAN（Density-Based Spatial Clustering of Applications with Noise）群集分析時，若某資料點鄰域內的樣本數不足以形成核心點（Core Point），且該點未被任何核心點的鄰域所包含，也未與其他群集形成密度可達關係（Density Reachability），此資料點最終將被歸類為哪一種類型？

白話

DBSCAN 是一種依「密度」來分群的演算法。它把資料點分成三種角色。題目描述了一個很孤立的點：它自己附近沒什麼鄰居（無法成為核心點），也沒有被任何「人口密集」的核心點的勢力範圍涵蓋，更沒有跟任何群集接上線。

問你：這種完全孤立的點，在 DBSCAN 中會被歸為哪一類？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

DBSCAN 中，既不是核心點、又沒有被任何核心點覆蓋的孤立資料點，最終被標記為雜訊點（Noise Point），也就是「異常值」，不屬於任何群集。

02　情境

先感受問題：用密度找出離群的店

假設統一超商的分析師要用 DBSCAN 對全台灣的門市分布做地理分群，找出「商圈群落」。

把每家門市想成地圖上的一個點：

台北市中心有 100 家門市密集在一起 → 這一大群形成一個「商圈群落」。
台東某個部落附近只有 1 家，周圍幾公里內沒有其他門市 → 這一家沒辦法歸入任何群落。

那台東那家孤立門市怎麼辦？它既沒辦法自己成為「核心」（周圍沒人），也沒有被任何「密集商圈」拉進去，DBSCAN 的答案是：把它標記為「雜訊」。這代表它是一個異常值，不是主流商圈的一部分。

03　對照

K-Means 碰到這種情況怎麼處理

K-Means 強制分配：K-Means 一定要把每個點歸入某個群集，台東那家也會被硬塞進最近的群，即使它跟那個群根本相差十萬八千里。
異常值影響中心：K-Means 的群集中心會被孤立點拉偏，讓整個群的「重心」不代表真正的密集區。
不識別異常值：K-Means 沒有「這個點不屬於任何群」的概念，沒辦法輸出「異常值列表」。
形狀限制：K-Means 假設群集是球形的，對於蜿蜒的河流旁的門市群落、或細長形分布，效果很差。
需要事先指定 K：台灣到底有幾個商圈？K-Means 要你先告訴它答案，但你不知道。

04　解法

DBSCAN 的三種點分類

DBSCAN 用兩個參數來定義「密集」：ε（鄰域半徑）和 MinPts（最少鄰居數）。

核心點（Core Point）：以 ε 為半徑的圓內，有 MinPts 個以上的鄰居。台北信義區的門市，每家 500 公尺內都有超過 10 家，每家都是核心點。
邊界點（Border Point）：自己不是核心點（鄰居不夠多），但在某個核心點的 ε 鄰域內。台北郊區邊緣的門市，附近只有幾家，但剛好被信義區核心點的圓圈蓋到。
雜訊點（Noise Point）：既不是核心點，也沒有被任何核心點的鄰域包含。台東部落那家孤立門市，四周空曠，完全被排除在外。

DBSCAN 最大的優點：自動輸出雜訊點，不需要事先指定群集數量，還能找出任意形狀的群集。

這就是選項 B 講的：雜訊點（Noise Point）。

技術版：DBSCAN 在機器學習中的位置與應用

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）屬於非監督式學習中的密度型分群演算法，是繼 K-Means 之後最廣泛使用的分群方法之一。

在 AI 領域的位置：非監督學習 → 分群 → 密度型分群。相較於距離型（K-Means）和層次型（Hierarchical Clustering），DBSCAN 屬於密度型，特別擅長發現不規則形狀的群集和識別異常值。

實務應用：

地理資料分析：找出人口聚集區、交通熱點。
異常偵測：雜訊點天然就是異常值候選，不需要額外後處理。
影像分割：識別像素密集區域。
社交網絡分析：找出緊密連結的社群群落。

跟 K-Means 的核心對比：K-Means 優先用在資料量大、群集近似球形、需要快速執行的情境；DBSCAN 優先用在需要識別異常值、群集形狀不規則、事先不知道群集數量的情境。

為什麼出題者要考這題：DBSCAN 的三種點分類（核心點、邊界點、雜訊點）是理解密度型分群的基礎，也是區分 DBSCAN 和 K-Means 能力差異的關鍵知識點。

05　陷阱

為什麼其他選項是錯的

A鄰近點（Neighbor Point）

字面在說什麼

聽起來像「在某個點的鄰近區域內的點」，也就是有鄰居的點。

為什麼不對

「鄰近點」不是 DBSCAN 定義的正式術語。DBSCAN 的三種點類型是：核心點、邊界點、雜訊點。題目描述的點明確說了「未被任何核心點的鄰域所包含」，表示它連邊界點都不是，更不可能叫做「鄰近點」。

誰會選錯

看到「鄰域內的樣本數」就聯想到「鄰近點」這個說法，但這不是 DBSCAN 的正式分類術語。記住：DBSCAN 只有三類點，沒有「鄰近點」這個類別。

C邊界點（Border Point）

字面在說什麼

邊界點是在群集邊緣的點，自己不是核心點，但在某個核心點的鄰域內。

為什麼不對

題目明確說了「未被任何核心點的鄰域所包含」，這直接排除了邊界點的可能性。邊界點的定義是「被至少一個核心點的 ε 圓覆蓋」，但這個點連這個條件都不符合。

誰會選錯

知道「邊界點也不是核心點」但沒仔細看「未被任何核心點的鄰域包含」這個關鍵條件的人。題目故意把邊界點的排除條件明確寫出來，就是要考你能不能抓到這個細節。

D潛在點（Potential Point）

字面在說什麼

聽起來像「有潛力成為某個群集一部分」的點。

為什麼不對

「潛在點」完全不是 DBSCAN 的術語，這個分類根本不存在。DBSCAN 只有核心點、邊界點、雜訊點三種。這個選項是干擾選項。

誰會選錯

對 DBSCAN 不熟悉，又覺得「潛在點」聽起來合理的人。遇到陌生術語，首先要問「這個名詞是不是真正存在的 DBSCAN 概念？」。

06　變形

同個考點下次怎麼變形

變形 1

DBSCAN 的 ε 和 MinPts 怎麼選？

直覺

兩個參數直接決定哪些點是核心點，影響整個分群結果。

答案

ε 通常用 k-distance graph（計算每個點到第 k 近鄰的距離後排序，找「手肘點」）來選。MinPts 通常設為資料維度的兩倍以上。兩個參數對結果很敏感，需要領域知識搭配試驗。

變形 2

DBSCAN 在高維資料上效果為何會變差？

直覺

維度越高，距離計算越奇怪。

答案

高維空間中「維度詛咒」讓所有點之間的距離趨於一致，密度的概念失去意義。ε 在高維中很難設定，幾乎所有點都可能成為雜訊點。解法是先降維（PCA）再跑 DBSCAN。

變形 3

雜訊點一定是「壞的」資料嗎？

直覺

雜訊聽起來很負面，好像是要丟掉的資料。

答案

不一定。在詐欺偵測中，「雜訊點」可能正是最有價值的異常行為。在地理分析中，偏遠地區的孤立門市可能是策略性布點。雜訊點的「意義」要看業務情境，不能一概而論。

變形 4

DBSCAN 和 K-Means 分別適合什麼情境？

直覺

兩種都是分群，但各有擅長。

答案

K-Means 適合：群集近似球形、資料量大、計算資源有限、已知群集數。DBSCAN 適合：群集形狀不規則、需要自動識別異常值、不知道群集數量、有明顯的密度差異。

變形 5

密度可達（Density Reachable）和密度連通（Density Connected）有什麼差？

直覺

DBSCAN 分群的原理是把「密度可達」的點連成一個群集。

答案

密度可達是有方向性的：點 A 可以透過一系列核心點「走到」點 B。密度連通是對稱的：點 A 和點 B 都可以從某個共同核心點密度可達。同一個群集內的所有點都互相密度連通。

07　延伸

想再往下看，這 5 個

密度分群（DBSCAN）本題核心演算法，依密度分群並識別三種點類型：核心點、邊界點、雜訊點。
K 均值分群（K-Means）最常用的分群對照組，無法處理任意形狀群集也無法識別異常值。
非監督式學習（Unsupervised Learning）DBSCAN 所屬的學習範疇，不需要標籤資料，從資料結構中找規律。
異常偵測（Anomaly Detection）DBSCAN 的雜訊點天然就是異常值候選，是異常偵測的常用工具。
降維處理（Dimensionality Reduction）高維資料用 DBSCAN 前通常需要先降維，避免維度詛咒讓密度計算失效。