---
title: "資料不平衡（Data Imbalance）"
slug: data-imbalance
language: zh-TW
source: https://aiterms.tw/terms/data-imbalance
updated_at: 2026-04-29
tags: [資料處理, SMOTE, 模型評估, iPAS中級]
ipas_term: true
---

# 資料不平衡（Data Imbalance）

> **你有沒有在你看見正樣本很少、負樣本很多時，還在想這件事到底該怎麼看？**
>
> 把它想成考卷裡有一題超少見，模型很容易只記住常見答案。
> 類別差太多時，模型可能只猜多數類別就拿到不錯的表面分數。
> 真正常用的能力不是高準確率，而是少數類別也要抓得到。
>
> 你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

### 容易混淆
> **label-noise**
> 資料不平衡是數量差太多，標籤噪音是答案本身可能錯。
> **常見混淆：資料不平衡 vs label-noise**
> 資料不平衡是數量差太多，標籤噪音是答案本身可能錯。

### 記住這句就好
> 少數類別不能被多數類別淹沒。

### 實際案例
> **詐欺偵測**
> 正常交易很多，真正詐欺很少，模型若只看準確率會被騙。
> **罕見疾病分類**
> 陽性病例少，醫療模型必須特別照顧少數類別。

### 算法與應用
> 1. 處理方式常見有過採樣、欠採樣、加權損失和合成少數樣本。
> 2. 不能只看 accuracy，還要看 recall、precision 和 F1。
> 3. 類別不平衡常和資料稀少、標註成本高一起出現。

### 情境判斷
> **Q1：分類準確率 98%，但少數類幾乎全錯，代表什麼？**
> → 很可能是資料不平衡，模型只學會多數類。
> **Q2：什麼時候會優先看召回率而不是準確率？**
> → 當漏抓少數類的代價很高時，例如風控或醫療。

### iPAS 考題

### 常見問題
> **Q：資料不平衡一定要先做 SMOTE 嗎？**
> 不一定，先看資料量、任務和風險，再決定要不要過採樣。
> **Q：為什麼準確率不夠看？**
> 因為多數類太多時，模型全猜多數類也可能有很高準確率。
> **Q：欠採樣會有什麼風險？**
> 可能丟掉太多資訊，讓模型學不到完整分布。

### 相關術語
> - **交叉驗證**：看完這個後，再回來看 資料不平衡 會更容易把脈絡接起來。
> - **資料擴增術**：看完這個後，再回來看 資料不平衡 會更容易把脈絡接起來。
> - **資料前處理**：看完這個後，再回來看 資料不平衡 會更容易把脈絡接起來。

---

來源：https://aiterms.tw/terms/data-imbalance
快查頁：https://aiterms.tw/terms/data-imbalance
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-data-imbalance