資料不平衡 是什麼?
Data Imbalance — 資料不平衡 的完整解釋
資料不平衡指訓練資料中各類別樣本數量差異懸殊,導致模型傾向預測多數類別,常用 SMOTE 過採樣或欠採樣等技術來處理
容易混淆
label-noise 資料不平衡是數量差太多,標籤噪音是答案本身可能錯。 常見混淆:資料不平衡 vs label-noise 資料不平衡是數量差太多,標籤噪音是答案本身可能錯。
記住這句就好
少數類別不能被多數類別淹沒。
實際案例
詐欺偵測 正常交易很多,真正詐欺很少,模型若只看準確率會被騙。 罕見疾病分類 陽性病例少,醫療模型必須特別照顧少數類別。
算法與應用
- 處理方式常見有過採樣、欠採樣、加權損失和合成少數樣本。
- 不能只看 accuracy,還要看 recall、precision 和 F1。
- 類別不平衡常和資料稀少、標註成本高一起出現。
情境判斷
Q1:分類準確率 98%,但少數類幾乎全錯,代表什麼? → 很可能是資料不平衡,模型只學會多數類。 Q2:什麼時候會優先看召回率而不是準確率? → 當漏抓少數類的代價很高時,例如風控或醫療。
資料不平衡 在 iPAS 考試中的重點
根據歷年統計,資料不平衡 相關題目 屬於高頻考範圍。
常見問題
資料不平衡一定要先做 SMOTE 嗎?
不一定,先看資料量、任務和風險,再決定要不要過採樣。
為什麼準確率不夠看?
因為多數類太多時,模型全猜多數類也可能有很高準確率。
欠採樣會有什麼風險?
可能丟掉太多資訊,讓模型學不到完整分布。
資料來源
- iPAS AI 應用規劃師評鑑內容範圍參考(115.02) — 經濟部產業人才能力鑑定