K 均值分群 是什麼?

K-Means Clustering — K 均值分群 的完整解釋

K 均值分群是一種將資料點分配到 K 個群集的演算法,透過反覆運算,將點分配到最近的群集中心,並更新中心位置,直到收斂

容易混淆

K 近鄰 K-Means 是無監督分群,K 近鄰是有標籤時拿鄰居投票。

DBSCAN K-Means 先指定群數,DBSCAN 會自己找密度群,形狀也比較自由。

記住這句就好

先指定 K,再把點分到最近群中心。

實際案例

客戶分群 電商把會員分成高消費、低頻次、沉睡客戶幾類,用來設計不同優惠。

色彩壓縮 把圖片顏色從很多種縮成少數幾群,檔案變小,畫面仍大致保留。

算法與應用

K-Means 的核心是「指派」與「更新」兩步反覆交替。你先選 K 個初始中心,再把資料分給最近的中心,接著重新算中心位置,直到中心不再明顯移動。K 值選得好不好,常常比算法本身更重要。

情境判斷

Q1(直覺題): 如果你現在遇到一個 客戶分群 的場景,這個概念會是第一個想到的工具嗎? → 看情況,但如果任務目標和這個概念的用途一致,就很可能是。核心還是先確認你要解決的是分類、分群、壓縮、檢索,還是最佳化。

Q2(判斷題): 如果你把它和 DBSCAN 一起用,結果反而變不穩,通常該怎麼想? → 看情況。先檢查資料分布、特徵定義和模型假設是否相容,很多時候不是概念本身有問題,而是使用條件不對,像距離尺度沒對齊、標註規則不一致,或輸入格式不合。

相關術語

常見問題

K 均值分群 最容易跟 K 近鄰 混淆嗎?

K-Means 是無監督分群,K 近鄰是有標籤時拿鄰居投票。

什麼情況會用到 K 均值分群?

你可以把它想成先放幾個群中心,再讓資料自己靠近最近的中心,反覆調整到穩定。 實務上只要你要處理和這個概念相符的任務,就會用到它。

初學者最常錯在哪裡?

K-Means 先指定群數,DBSCAN 會自己找密度群,形狀也比較自由。