iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論

樣本不平衡時,準確率為什麼不能用?

原題 40

某製造業公司建置機器學習模型,用於預測產品是否為瑕疵品。實際生產資料中,瑕疵品比例極低,大多數樣本皆為正常品。模型測試時發現,即使模型多數預測為正常品,仍可獲得很高的整體準確率。在此情境下,若希望更有效衡量模型對瑕疵品的辨識能力,下列何者較適合作為主要評估指標?

白話

一家製造業公司建置機器學習模型,用來預測產品是否為瑕疵品。實際資料中瑕疵品比例極低,幾乎都是正常品。測試發現,就算模型大多時候預測「正常品」,整體準確率依然很高。

公司希望找到一個更能反映模型對瑕疵品辨識能力的評估指標。

問你:在這種情境下,哪個指標較適合用來衡量模型對瑕疵品的辨識能力?

點選你的答案。

01 總結

一句話總結

樣本嚴重不平衡時,準確率會被多數類別主導而失去意義;用F1-score同時考量精確率和召回率,才能真正衡量模型對少數類別(瑕疵品)的辨識能力。

02 情境

先感受問題:99% 準確率的模型,可能是廢物

台積電的封測線有一套 AI 品檢系統,每天生產 100 萬顆晶片,其中瑕疵品大約 1,000 顆(佔 0.1%)。

工程師小林訓練了一個模型,測試結果:準確率 99.9%。主管一看很高興,覺得模型超厲害。

但小林仔細看了一下模型的預測:原來模型把所有 100 萬顆晶片都預測成「正常品」,一顆瑕疵品也沒抓到。100 萬顆都說正常,確實答對了 99.9 萬顆,準確率自然高達 99.9%。

但這個模型完全沒有用:1,000 顆瑕疵品全部漏抓,全部流入市場,客戶拿到壞晶片,損失慘重。

準確率騙了所有人。需要一個能衡量「瑕疵品有沒有被抓到」的指標。

03 對照

為什麼準確率在不平衡資料下失效

準確率(Accuracy)的公式是:正確預測數 ÷ 總預測數。這個公式的問題在於:

  1. 被多數類別主導:99.9% 都是正常品,全押正常品就有 99.9% 的準確率,多數類別的表現「淹沒」了少數類別的表現
  2. 看不到瑕疵品偵測率:1,000 顆瑕疵品全漏,對準確率的影響只有 0.1%,幾乎察覺不到
  3. 偽陰性(False Negative)被忽略:把瑕疵品判成正常品(最危險的錯誤)對準確率影響很小,這個指標根本沒在懲罰這種錯誤
  4. 模型越懶,準確率越好(虛假現象):一個什麼都不學、永遠預測多數類別的「懶模型」,在不平衡資料上的準確率非常高
  5. 無法區分哪種錯誤更嚴重:漏抓瑕疵品(流入市場)和誤判正常品(浪費人工複檢)的代價完全不同,但準確率對兩種錯誤一視同仁
04 解法

F1-score 如何平衡精確率和召回率

要衡量模型對瑕疵品的辨識能力,需要看兩件事:

精確率(Precision):模型說「這是瑕疵品」,真的是瑕疵品的比例。衡量「不冤枉好品」。如果精確率太低,正常品常被誤判為瑕疵品,人工複檢崩潰。

召回率(Recall):真正的瑕疵品中,被模型找到的比例。衡量「不放過壞品」。如果召回率太低,瑕疵品大量漏抓流入市場,客訴不斷。

這兩個指標通常互相拉扯:放寬標準,召回率上升但精確率下降(抓更多但誤判也多);嚴格標準,精確率上升但召回率下降(誤判少但漏抓多)。

F1-score 是精確率和召回率的「調和平均數」,只有兩者都好的時候,F1-score 才會高。如果一個指標很低(例如召回率是 0),F1-score 就直接是 0,不像準確率那樣被掩蓋。

台積電的例子:召回率 0(一顆瑕疵品都沒抓到),F1-score = 0,模型立刻被識破是廢物。

這就是選項 A 講的:F1-score

技術版:F1-score 在模型評估中的位置

F1-score 是分類模型在不平衡資料集上的標準評估指標,它的計算基礎來自混淆矩陣(Confusion Matrix)中的四個數字:

  • TP(True Positive):瑕疵品被正確識別為瑕疵品
  • FP(False Positive):正常品被誤判為瑕疵品(誤報)
  • FN(False Negative):瑕疵品被誤判為正常品(漏抓)
  • TN(True Negative):正常品被正確識別為正常品

精確率 = TP / (TP + FP);召回率 = TP / (TP + FN);F1-score = 2 × (精確率 × 召回率) / (精確率 + 召回率)。

什麼情況用 F1,什麼情況用 Accuracy:類別平衡時(各類別樣本差不多多),Accuracy 是好的指標。類別嚴重不平衡時(像本題 0.1% 瑕疵品),必須用 F1 或 AUC-ROC。

F1 的延伸:F-beta Score。當漏抓比誤報更嚴重時(如癌症篩查,漏診代價遠高於誤診),可以用 F2-score(更重視召回率)。當誤報比漏抓更嚴重時(如垃圾郵件過濾,重要郵件被誤刪比漏放垃圾郵件更嚴重),用 F0.5-score(更重視精確率)。

為什麼出題者考這題:AI 應用規劃師在部署品管、醫療、詐欺偵測等不平衡資料的 AI 系統時,必須選對評估指標。用準確率評估這些系統,等於自欺欺人,可能讓完全沒用的模型通過驗收。

05 陷阱

為什麼其他選項是錯的

B均方誤差(RMSE)

字面在說什麼

RMSE 計算預測值和真實值之間的「距離誤差」,常用於評估回歸模型的預測精度。

為什麼不對

RMSE 是回歸問題的指標,評估「預測數字」和「真實數字」的偏差(例如:預測房價 800 萬,實際 820 萬,誤差 20 萬)。本題是分類問題(判斷「瑕疵」或「正常」),輸出是類別,不是連續數值,RMSE 完全不適用。

誰會選錯

不清楚分類指標和回歸指標的適用場景,把所有指標當通用的人。先確認「我的任務是分類還是回歸」,再選對應的指標。

C準確率(Accuracy)

字面在說什麼

準確率 = 正確預測數 / 總預測數,是最直觀的分類模型指標。

為什麼不對

題目明確說「即使模型多數預測為正常品,仍可獲得很高的整體準確率」,直接告訴你準確率在這個情境下是失效的。準確率被多數類別主導,無法衡量對少數類別(瑕疵品)的辨識能力。選 C 等於跳回問題本身。

誰會選錯

沒有讀完整題幹就選「直覺上最熟悉的指標」的人。題目其實已經在解析裡告訴你答案不是準確率了。

D判定係數(R²)

字面在說什麼

R² 衡量迴歸模型能解釋多少比例的資料變異,是線性回歸的標準評估指標。

為什麼不對

R² 是回歸問題的指標,衡量「模型預測的數值」和「真實數值」的線性相關程度。本題是二元分類(瑕疵品 vs. 正常品),輸出是「是/否」,R² 完全不適用。

誰會選錯

和 RMSE 一樣,把回歸指標當分類指標的人。分類 → F1、Precision、Recall、AUC;回歸 → RMSE、MAE、R²,這兩套不能混用。

06 變形

同個考點下次怎麼變形

變形 1

癌症篩查 AI,漏診比誤診更嚴重,應優先最大化哪個指標?

直覺

醫療場景,漏掉病人比誤報更危險,要怎麼選指標?

答案

優先最大化召回率(Recall)。召回率衡量「真正的癌症患者有多少比例被找到」,漏診的代價是患者延誤治療,代價極高。即使精確率稍低(有些正常人被誤判需要進一步檢查),也比漏診更能接受。這種偏好可以用 F2-score(beta=2,更重視召回率)來量化評估。

變形 2

精確率(Precision)和召回率(Recall)互相拉扯,如何決定取捨?

直覺

想同時提高兩個,但它們通常是反方向的,怎麼辦?

答案

依業務代價決定:漏抓的代價大(癌症漏診、瑕疵品流入市場),優先提高召回率;誤報的代價大(重要郵件被誤刪成垃圾郵件、無辜者被誤捕),優先提高精確率。F1-score 是兩者都同等重要時的中性選擇。實務上通過調整分類閾值(決定邊界)可以在兩者間移動,PR 曲線(Precision-Recall Curve)可視化這個取捨。

變形 3

處理類別不平衡問題,除了換指標,還有哪些方法?

直覺

換了指標只是換了「衡量方式」,模型本身有沒有辦法解決不平衡問題?

答案

三大方向:一、資料層面:過採樣(SMOTE,對少數類別合成新樣本)或欠採樣(隨機刪除多數類別樣本);二、算法層面:在損失函數中加大少數類別的權重(class_weight),讓漏抓少數類別的代價更大;三、評估層面:換用 F1、AUC-ROC 等對不平衡資料更合適的指標。換指標是必要的,但不解決模型本身的問題,通常需要同時處理資料和算法。

變形 4

AUC-ROC 和 F1-score,在不平衡資料上哪個更合適?

直覺

AUC-ROC 也是常用的不平衡資料指標,和 F1 的差別是什麼?

答案

AUC-ROC 衡量「模型在不同閾值下的整體辨識能力」,對各種類別比例的敏感度較低,適合比較不同模型的相對表現。F1-score 直接衡量「特定閾值下」精確率和召回率的平衡,更適合要選一個閾值部署的實際場景。嚴重不平衡時(99:1),AUC-PR(Precision-Recall Curve 下面積)比 AUC-ROC 更能反映少數類別的偵測能力。

變形 5

如果瑕疵品比例不是 0.1% 而是 30%,還需要用 F1-score 嗎?

直覺

不平衡程度沒那麼嚴重,指標還有差別嗎?

答案

30% 的不平衡程度不算嚴重,Accuracy 此時可以作為主要指標,但 F1-score 仍然有參考價值。一般的原則:類別比例在 80:20 以內,Accuracy 可接受;比例超過 90:10(一方超過 90%),應優先使用 F1 或 AUC-PR。本題是 99.9:0.1,嚴重到 Accuracy 完全失效。

07 延伸

想再往下看,這 5 個

  • F1 分數(F1 Score)精確率與召回率的調和平均數,類別不平衡時比準確率更能反映少數類別辨識能力,本題正解
  • 召回率(Recall)真實正例中被正確識別的比例,F1-score 的分子組成之一,瑕疵漏判代價高的場景優先保證召回率
  • 精確率(Precision)預測為正例中真正是正例的比例,與召回率共同構成 F1-score,高精確率代表誤報少
  • 準確率(Accuracy)所有預測中正確的比例,類別不平衡時被多數類別主導而失去意義,本題的干擾選項
  • ROC 曲線下面積(Area Under the ROC Curve)衡量分類模型在不同閾值下的整體辨識能力,不平衡資料的另一常用指標,與 F1 互補
出處

iPAS 經濟部產業人才能力鑑定 ・ 115 年第一次 iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論 第 40 題

查看官方原文 PDF