你有沒有一堆資料看起來很像,卻不知道該怎麼自己分成幾群?
你可以把它想成先放幾個群中心,再讓資料自己靠近最近的中心,反覆調整到穩定。
K 均值分群是一種將資料點分配到 K 個群集的演算法,透過反覆運算,將點分配到最近的群集中心,並更新中心位置,直到收斂
容易混淆
K 近鄰 K-Means 是無監督分群,K 近鄰是有標籤時拿鄰居投票。
DBSCAN K-Means 先指定群數,DBSCAN 會自己找密度群,形狀也比較自由。
記住這句就好
先指定 K,再把點分到最近群中心。
實際案例
客戶分群 電商把會員分成高消費、低頻次、沉睡客戶幾類,用來設計不同優惠。
色彩壓縮 把圖片顏色從很多種縮成少數幾群,檔案變小,畫面仍大致保留。
算法與應用
K-Means 的核心是「指派」與「更新」兩步反覆交替。你先選 K 個初始中心,再把資料分給最近的中心,接著重新算中心位置,直到中心不再明顯移動。K 值選得好不好,常常比算法本身更重要。
情境判斷
Q1(直覺題): 如果你現在遇到一個 客戶分群 的場景,這個概念會是第一個想到的工具嗎? → 看情況,但如果任務目標和這個概念的用途一致,就很可能是。核心還是先確認你要解決的是分類、分群、壓縮、檢索,還是最佳化。
Q2(判斷題): 如果你把它和 DBSCAN 一起用,結果反而變不穩,通常該怎麼想? → 看情況。先檢查資料分布、特徵定義和模型假設是否相容,很多時候不是概念本身有問題,而是使用條件不對,像距離尺度沒對齊、標註規則不一致,或輸入格式不合。
iPAS 考題
出題方向: 這類概念常考定義、差異和實務用法。 題目 關於 K-Means 分群,下列何者正確? → 答案:C。 K-Means 的群中心是群內資料點的平均值,這是它更新中心的基本方式。A 錯在它屬於無監督學習,B 錯在 K 需要人先指定,D 錯在它對離群值其實很敏感。
常見問題
K 均值分群 最容易跟 K 近鄰 混淆嗎?
K-Means 是無監督分群,K 近鄰是有標籤時拿鄰居投票。
什麼情況會用到 K 均值分群?
你可以把它想成先放幾個群中心,再讓資料自己靠近最近的中心,反覆調整到穩定。 實務上只要你要處理和這個概念相符的任務,就會用到它。
初學者最常錯在哪裡?
K-Means 先指定群數,DBSCAN 會自己找密度群,形狀也比較自由。