K 均值分群(K-Means Clustering)是什麼?

K 均值分群是一種將資料點分配到 K 個群集的演算法,透過反覆運算,將點分配到最近的群集中心,並更新中心位置,直到收斂|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

K 均值分群(K-Means Clustering)是什麼? 機器學習AI基礎

你有沒有一堆資料看起來很像,卻不知道該怎麼自己分成幾群?

你可以把它想成先放幾個群中心,再讓資料自己靠近最近的中心,反覆調整到穩定。

K 均值分群是一種將資料點分配到 K 個群集的演算法,透過反覆運算,將點分配到最近的群集中心,並更新中心位置,直到收斂

容易混淆

K 近鄰 K-Means 是無監督分群,K 近鄰是有標籤時拿鄰居投票。

DBSCAN K-Means 先指定群數,DBSCAN 會自己找密度群,形狀也比較自由。

記住這句就好

先指定 K,再把點分到最近群中心。

實際案例

客戶分群 電商把會員分成高消費、低頻次、沉睡客戶幾類,用來設計不同優惠。

色彩壓縮 把圖片顏色從很多種縮成少數幾群,檔案變小,畫面仍大致保留。

算法與應用

K-Means 的核心是「指派」與「更新」兩步反覆交替。你先選 K 個初始中心,再把資料分給最近的中心,接著重新算中心位置,直到中心不再明顯移動。K 值選得好不好,常常比算法本身更重要。

情境判斷

Q1(直覺題): 如果你現在遇到一個 客戶分群 的場景,這個概念會是第一個想到的工具嗎? → 看情況,但如果任務目標和這個概念的用途一致,就很可能是。核心還是先確認你要解決的是分類、分群、壓縮、檢索,還是最佳化。

Q2(判斷題): 如果你把它和 DBSCAN 一起用,結果反而變不穩,通常該怎麼想? → 看情況。先檢查資料分布、特徵定義和模型假設是否相容,很多時候不是概念本身有問題,而是使用條件不對,像距離尺度沒對齊、標註規則不一致,或輸入格式不合。

iPAS 考題

出題方向: 這類概念常考定義、差異和實務用法。 題目 關於 K-Means 分群,下列何者正確? → 答案:C。 K-Means 的群中心是群內資料點的平均值,這是它更新中心的基本方式。A 錯在它屬於無監督學習,B 錯在 K 需要人先指定,D 錯在它對離群值其實很敏感。

常見問題

K 均值分群 最容易跟 K 近鄰 混淆嗎?

K-Means 是無監督分群,K 近鄰是有標籤時拿鄰居投票。

什麼情況會用到 K 均值分群?

你可以把它想成先放幾個群中心,再讓資料自己靠近最近的中心,反覆調整到穩定。 實務上只要你要處理和這個概念相符的任務,就會用到它。

初學者最常錯在哪裡?

K-Means 先指定群數,DBSCAN 會自己找密度群,形狀也比較自由。