資料不平衡(Data Imbalance)是什麼?

資料不平衡指訓練資料中各類別樣本數量差異懸殊,導致模型傾向預測多數類別,常用 SMOTE 過採樣或欠採樣等技術來處理|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

資料不平衡(Data Imbalance)是什麼? iPAS 高頻 資料處理SMOTE

你有沒有在你看見正樣本很少、負樣本很多時,還在想這件事到底該怎麼看?

把它想成考卷裡有一題超少見,模型很容易只記住常見答案。 類別差太多時,模型可能只猜多數類別就拿到不錯的表面分數。 真正常用的能力不是高準確率,而是少數類別也要抓得到。

你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。

容易混淆

label-noise 資料不平衡是數量差太多,標籤噪音是答案本身可能錯。 常見混淆:資料不平衡 vs label-noise 資料不平衡是數量差太多,標籤噪音是答案本身可能錯。

記住這句就好

少數類別不能被多數類別淹沒。

實際案例

詐欺偵測 正常交易很多,真正詐欺很少,模型若只看準確率會被騙。 罕見疾病分類 陽性病例少,醫療模型必須特別照顧少數類別。

算法與應用

  1. 處理方式常見有過採樣、欠採樣、加權損失和合成少數樣本。
  2. 不能只看 accuracy,還要看 recall、precision 和 F1。
  3. 類別不平衡常和資料稀少、標註成本高一起出現。

情境判斷

Q1: 分類準確率 98%,但少數類幾乎全錯,代表什麼?

很可能是資料不平衡,模型只學會多數類。

Q2: 什麼時候會優先看召回率而不是準確率?

當漏抓少數類的代價很高時,例如風控或醫療。

常見問題

資料不平衡一定要先做 SMOTE 嗎?

不一定,先看資料量、任務和風險,再決定要不要過採樣。

為什麼準確率不夠看?

因為多數類太多時,模型全猜多數類也可能有很高準確率。

欠採樣會有什麼風險?

可能丟掉太多資訊,讓模型學不到完整分布。

iPAS 考試出題分析

根據歷年 iPAS AI 應用規劃師考古題統計,資料不平衡 相關題目 屬於高頻考範圍。

立即測驗

想測試你對 資料不平衡 的掌握程度? 開始模擬考