iPAS AI 應用規劃師中級　科目二　大數據處理分析與應用

隨機過採樣最常造成什麼問題？

原題 12

在處理分類問題時，若某一類樣本數明顯少於其他類別，研究人員可能採用隨機過採樣（Random Oversampling）以平衡資料比例，此方法最常造成下列哪一種問題？

白話

資料集裡某一類別的樣本數比其他類別少很多（類別不平衡問題）。研究人員用「隨機過採樣」的方式來補充少數類別的樣本量，方法是把少數類別的資料重複複製，讓各類別數量變得平衡。

問你：隨機過採樣這個做法，最常引發哪一種問題？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

隨機過採樣是把少數類別的資料「複製貼上」，同一筆資料出現多次，模型反覆看到完全相同的樣本，最常造成過擬合（Overfitting）：模型把複製出來的「重複樣本」的細節特徵都死記下來，泛化能力變差。

02　情境

先感受問題：詐騙案例只有 100 筆，正常交易有 9900 筆

豐橋金融的 AI 團隊在訓練詐騙偵測模型，資料集如下：

正常交易：9,900 筆
詐騙交易：100 筆
比例：99:1

問題：模型如果只學到「全部猜正常」，Accuracy 就有 99%，根本不用學任何東西。訓練出來的模型對詐騙毫無偵測能力。

資料科學家小明想到一個直觀解法：把 100 筆詐騙資料複製 99 次，變成 9,900 筆，讓兩類資料平衡。

這就是隨機過採樣（Random Oversampling）。

但問題來了：這 9,900 筆詐騙資料只有 100 種不同的「面貌」。模型會把這 100 筆的每個特徵細節都背起來，而不是學到「詐騙交易的通用規律」。

03　對照

不處理類別不平衡時，有哪些踩坑方式

直接訓練：模型偏向多數類別：不做任何處理，模型學到「全部猜多數類別」就能得到高準確率。在我們的例子裡，模型 99% 的時間猜「正常交易」，詐騙完全抓不到。
隨機過採樣的過擬合陷阱：把少數類別重複複製，模型看到大量「一模一樣」的樣本。訓練誤差很低（因為這些樣本全都記住了），但測試集上表現差，因為現實中詐騙的模式比 100 筆豐富得多。
隨機欠採樣的資訊損失：反過來，把多數類別隨機刪到跟少數類別一樣少。但這樣 9,900 筆正常交易裡的資訊大量丟失，模型學到的「正常交易」知識也不足。
不調整類別權重的損失函數偏差：預設損失函數對每筆資料等權處理，等同於讓 9,900 筆正常的「聲音」蓋過 100 筆詐騙的「聲音」，模型訓練方向被主導。
評估指標選錯，誤以為模型很好：用 Accuracy 評估不平衡資料集上的模型，很容易得到「虛假的高分」，實際上少數類別的召回率可能是 0。

04　解法

隨機過採樣用重複資料填充，導致過擬合

豐橋金融的小明把 100 筆詐騙資料複製成 9,900 筆後，訓練了模型。

結果：訓練集 F1-score = 0.98（非常高），但測試集 F1-score = 0.55（差很多）。

原因：模型看到同樣的 100 筆詐騙資料重複了 99 遍，對這些特定樣本的特徵死記硬背。這 100 筆裡有一筆詐騙金額是 3,247 元，模型學到「3,247 元 = 詐騙」，但這不是通用規律，只是那一筆的巧合。

在真實世界的測試集上，出現了這 100 筆以外的詐騙模式，模型完全不認識，泛化能力嚴重不足，這就是過擬合（Overfitting）。

更好的做法是用 SMOTE（合成少數類過採樣技術）：不是「複製」既有資料，而是在少數類別的樣本之間「內插」合成新樣本，增加多樣性，降低過擬合風險。

這就是選項 A 講的：增加過擬合風險。

技術版：過採樣方法比較與過擬合的機制

隨機過採樣（Random Oversampling）的過擬合機制

當訓練集包含大量重複樣本時，模型的損失函數在這些重複樣本上被最小化，但這些樣本代表的特徵空間非常有限（只有 100 種不同的特徵組合）。模型等同於在有限的特徵空間上「死背」，而不是在豐富的特徵空間上「學習通則」。

SMOTE vs 隨機過採樣

方法	產生新樣本的方式
隨機過採樣	直接複製少數類別的既有樣本
SMOTE	在少數類別的 K 近鄰之間線性內插，生成全新合成樣本
ADASYN	自適應版 SMOTE，在難以分類的區域產生更多合成樣本

類別不平衡的其他處理方法

調整類別權重（Class Weighting）：在損失函數中給少數類別更高的權重，不需要增加樣本數，sklearn 的大多數分類器都有 `class_weight='balanced'` 參數。
隨機欠採樣（Random Undersampling）：刪除多數類別的部分樣本，風險是丟失有用資訊。
組合方法（EasyEnsemble、BalancedBagging）：結合欠採樣和集成學習，在多個子集上訓練多個模型再投票。

驗證指標的選擇：類別不平衡時，NEVER 用 Accuracy 作為主要指標。應用 Precision-Recall AUC、F1 Score（尤其是 macro-F1 或 weighted-F1）、ROC-AUC 來評估模型在少數類別上的真實表現。

05　陷阱

為什麼其他選項是錯的

B降低模型的收斂速度

字面在說什麼

過採樣讓訓練集變大，模型要處理更多資料，所以訓練會變慢。

為什麼不對

過採樣確實讓訓練集資料量增加，訓練時間會拉長，但「收斂速度」指的是模型損失值趨向穩定所需的時間。重複樣本反而可能讓模型「更快收斂」到那些特定樣本的特徵上（因為它一再看到相同資料），而不是變慢。這不是過採樣「最常造成」的問題，也不是最嚴重的問題。

誰會選錯

直覺覺得「資料多了當然慢」的人。訓練時間和收斂速度是不同概念，而且這不是過採樣的主要副作用。

C減少資料總筆數數量

字面在說什麼

過採樣會減少資料總量。

為什麼不對

這與過採樣的定義完全相反。「過採樣」就是增加（複製）少數類別的樣本，總資料量只會增加，不會減少。減少資料量是「欠採樣（Undersampling）」的特徵，不是過採樣。

誰會選錯

把「過採樣」和「欠採樣」定義搞混的人。記住：過採樣 = 增加少數類、欠採樣 = 刪除多數類。

D導致訓練資料欄位缺失

字面在說什麼

過採樣會造成資料某些欄位的值消失或變成 null。

為什麼不對

隨機過採樣是完整複製現有樣本，所有欄位的值都跟原始樣本一模一樣，不會產生欄位缺失。欄位缺失（Missing Values）是另一個資料品質問題，跟採樣策略無關。

誰會選錯

把「資料不平衡」和「資料缺失」混為一談的人。這兩個是完全不同的資料問題，需要不同的處理方式。

06　變形

同個考點下次怎麼變形

變形 1

SMOTE 和隨機過採樣相比，主要優點是什麼？

直覺

兩個都是增加少數類別樣本，SMOTE 有什麼特別之處？

答案

SMOTE（Synthetic Minority Oversampling Technique）不是複製既有樣本，而是在少數類別的樣本之間進行插值，產生全新的合成樣本。這樣增加了少數類別的特徵多樣性，模型不會死背某幾筆特定樣本的特徵，過擬合風險比隨機過採樣低很多。

變形 2

類別不平衡問題，除了過採樣，還有哪些處理方式？

直覺

過採樣有過擬合風險，還有別的方法嗎？

答案

主要有三類做法：(1) 欠採樣：隨機刪除多數類別樣本，風險是損失資訊；(2) 調整類別權重（class_weight）：在損失函數中給少數類別更高懲罰，不改變資料量，是最簡單安全的方式；(3) 演算法層面：使用 Balanced Random Forest、EasyEnsemble 等專門針對不平衡設計的集成模型。

變形 3

評估不平衡資料集的模型，應優先使用哪個指標？

直覺

準確率（Accuracy）不是最基本的指標嗎？

答案

不平衡資料集上，Accuracy 會有嚴重誤導。99:1 的詐騙資料，模型全猜「正常」就有 99% Accuracy，但根本無用。應改用 F1 Score（尤其是少數類別的 F1）、Precision-Recall AUC、或 ROC-AUC 來評估模型在少數類別上的真實表現能力。

變形 4

過擬合（Overfitting）的根本原因是什麼？

直覺

過擬合就是「訓練集上很好、測試集上很差」，但為什麼會這樣？

答案

過擬合的根本原因是模型「記住了訓練資料的雜訊和特定細節」而不是「學到了通用規律」。隨機過採樣造成過擬合的機制是：重複樣本讓訓練集的多樣性不足，模型用大量參數去擬合有限的樣本，把統計雜訊也學進去。預防方法包括：正則化、Dropout、early stopping、增加真實資料多樣性（而不是複製）。

變形 5

隨機欠採樣（Random Undersampling）的主要風險是什麼？

直覺

欠採樣是刪掉多數類別的樣本，這樣有什麼問題？

答案

隨機欠採樣的主要風險是資訊損失（Information Loss）。把 9,900 筆正常交易隨機刪到剩 100 筆，大量有價值的「正常交易模式」被丟棄，模型對多數類別的學習也變得不足。特別是當被刪除的樣本包含重要的邊界資訊時，模型的決策邊界品質會下降。

07　延伸

想再往下看，這 5 個

資料不平衡（Data Imbalance）各類別樣本數差距懸殊的問題，詐騙偵測、疾病診斷等場景常見。
過擬合（Overfitting）模型記住訓練資料雜訊而非通用規律，隨機過採樣的核心副作用。
合成資料生成（Synthetic Data Generation）SMOTE 等方法生成新樣本，比複製更能增加資料多樣性。
偏差方差權衡（Bias-Variance Tradeoff）過擬合對應高方差，欠擬合對應高偏差，採樣策略影響此平衡。
正則化（Regularization）L1/L2 正則化是緩解過擬合的重要手段，與採樣策略互補。