DI（資料不平衡）是什麼？完整定義與解說

你有沒有在你看見正樣本很少、負樣本很多時，還在想這件事到底該怎麼看？

把它想成考卷裡有一題超少見，模型很容易只記住常見答案。類別差太多時，模型可能只猜多數類別就拿到不錯的表面分數。真正常用的能力不是高準確率，而是少數類別也要抓得到。

你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

容易混淆

label-noise 資料不平衡是數量差太多，標籤噪音是答案本身可能錯。 常見混淆：資料不平衡 vs label-noise 資料不平衡是數量差太多，標籤噪音是答案本身可能錯。

記住這句就好

少數類別不能被多數類別淹沒。

實際案例

詐欺偵測 正常交易很多，真正詐欺很少，模型若只看準確率會被騙。 罕見疾病分類 陽性病例少，醫療模型必須特別照顧少數類別。

算法與應用

處理方式常見有過採樣、欠採樣、加權損失和合成少數樣本。

不能只看 accuracy，還要看 recall、precision 和 F1。

類別不平衡常和資料稀少、標註成本高一起出現。

情境判斷

Q1： 分類準確率 98%，但少數類幾乎全錯，代表什麼？

很可能是資料不平衡，模型只學會多數類。

Q2： 什麼時候會優先看召回率而不是準確率？

當漏抓少數類的代價很高時，例如風控或醫療。

常見問題

資料不平衡一定要先做 SMOTE 嗎？

不一定，先看資料量、任務和風險，再決定要不要過採樣。

為什麼準確率不夠看？

因為多數類太多時，模型全猜多數類也可能有很高準確率。

欠採樣會有什麼風險？

可能丟掉太多資訊，讓模型學不到完整分布。

iPAS 考試出題分析

根據歷年 iPAS AI 應用規劃師考古題統計，資料不平衡相關題目屬於高頻考範圍。

資料不平衡（Data Imbalance）是什麼？

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

常見問題

iPAS 考試出題分析

立即測驗

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

常見問題

相關術語

iPAS 考試出題分析

延伸學習

立即測驗

資料來源與參考依據