資料不平衡是什麼？

Data Imbalance — 資料不平衡的完整解釋

資料不平衡指訓練資料中各類別樣本數量差異懸殊，導致模型傾向預測多數類別，常用 SMOTE 過採樣或欠採樣等技術來處理

label-noise 資料不平衡是數量差太多，標籤噪音是答案本身可能錯。 常見混淆：資料不平衡 vs label-noise 資料不平衡是數量差太多，標籤噪音是答案本身可能錯。

少數類別不能被多數類別淹沒。

詐欺偵測 正常交易很多，真正詐欺很少，模型若只看準確率會被騙。 罕見疾病分類 陽性病例少，醫療模型必須特別照顧少數類別。

處理方式常見有過採樣、欠採樣、加權損失和合成少數樣本。

不能只看 accuracy，還要看 recall、precision 和 F1。

類別不平衡常和資料稀少、標註成本高一起出現。

Q1：分類準確率 98%，但少數類幾乎全錯，代表什麼？ → 很可能是資料不平衡，模型只學會多數類。 Q2：什麼時候會優先看召回率而不是準確率？ → 當漏抓少數類的代價很高時，例如風控或醫療。

資料不平衡在 iPAS 考試中的重點

根據歷年統計，資料不平衡相關題目屬於高頻考範圍。

不一定，先看資料量、任務和風險，再決定要不要過採樣。

因為多數類太多時，模型全猜多數類也可能有很高準確率。

可能丟掉太多資訊，讓模型學不到完整分布。

資料來源

透過模擬考系統檢驗學習成果