iPAS AI 應用規劃師初級　科目一　人工智慧基礎概論

樣本不平衡時，準確率為什麼不能用？

原題 40

某製造業公司建置機器學習模型，用於預測產品是否為瑕疵品。實際生產資料中，瑕疵品比例極低，大多數樣本皆為正常品。模型測試時發現，即使模型多數預測為正常品，仍可獲得很高的整體準確率。在此情境下，若希望更有效衡量模型對瑕疵品的辨識能力，下列何者較適合作為主要評估指標？

白話

一家製造業公司建置機器學習模型，用來預測產品是否為瑕疵品。實際資料中瑕疵品比例極低，幾乎都是正常品。測試發現，就算模型大多時候預測「正常品」，整體準確率依然很高。

公司希望找到一個更能反映模型對瑕疵品辨識能力的評估指標。

問你：在這種情境下，哪個指標較適合用來衡量模型對瑕疵品的辨識能力？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

樣本嚴重不平衡時，準確率會被多數類別主導而失去意義；用F1-score同時考量精確率和召回率，才能真正衡量模型對少數類別（瑕疵品）的辨識能力。

02　情境

先感受問題：99% 準確率的模型，可能是廢物

台積電的封測線有一套 AI 品檢系統，每天生產 100 萬顆晶片，其中瑕疵品大約 1,000 顆（佔 0.1%）。

工程師小林訓練了一個模型，測試結果：準確率 99.9%。主管一看很高興，覺得模型超厲害。

但小林仔細看了一下模型的預測：原來模型把所有 100 萬顆晶片都預測成「正常品」，一顆瑕疵品也沒抓到。100 萬顆都說正常，確實答對了 99.9 萬顆，準確率自然高達 99.9%。

但這個模型完全沒有用：1,000 顆瑕疵品全部漏抓，全部流入市場，客戶拿到壞晶片，損失慘重。

準確率騙了所有人。需要一個能衡量「瑕疵品有沒有被抓到」的指標。

03　對照

為什麼準確率在不平衡資料下失效

準確率（Accuracy）的公式是：正確預測數 ÷ 總預測數。這個公式的問題在於：

被多數類別主導：99.9% 都是正常品，全押正常品就有 99.9% 的準確率，多數類別的表現「淹沒」了少數類別的表現
看不到瑕疵品偵測率：1,000 顆瑕疵品全漏，對準確率的影響只有 0.1%，幾乎察覺不到
偽陰性（False Negative）被忽略：把瑕疵品判成正常品（最危險的錯誤）對準確率影響很小，這個指標根本沒在懲罰這種錯誤
模型越懶，準確率越好（虛假現象）：一個什麼都不學、永遠預測多數類別的「懶模型」，在不平衡資料上的準確率非常高
無法區分哪種錯誤更嚴重：漏抓瑕疵品（流入市場）和誤判正常品（浪費人工複檢）的代價完全不同，但準確率對兩種錯誤一視同仁

04　解法

F1-score 如何平衡精確率和召回率

要衡量模型對瑕疵品的辨識能力，需要看兩件事：

精確率（Precision）：模型說「這是瑕疵品」，真的是瑕疵品的比例。衡量「不冤枉好品」。如果精確率太低，正常品常被誤判為瑕疵品，人工複檢崩潰。

召回率（Recall）：真正的瑕疵品中，被模型找到的比例。衡量「不放過壞品」。如果召回率太低，瑕疵品大量漏抓流入市場，客訴不斷。

這兩個指標通常互相拉扯：放寬標準，召回率上升但精確率下降（抓更多但誤判也多）；嚴格標準，精確率上升但召回率下降（誤判少但漏抓多）。

F1-score 是精確率和召回率的「調和平均數」，只有兩者都好的時候，F1-score 才會高。如果一個指標很低（例如召回率是 0），F1-score 就直接是 0，不像準確率那樣被掩蓋。

台積電的例子：召回率 0（一顆瑕疵品都沒抓到），F1-score = 0，模型立刻被識破是廢物。

這就是選項 A 講的：F1-score。

技術版：F1-score 在模型評估中的位置

F1-score 是分類模型在不平衡資料集上的標準評估指標，它的計算基礎來自混淆矩陣（Confusion Matrix）中的四個數字：

TP（True Positive）：瑕疵品被正確識別為瑕疵品
FP（False Positive）：正常品被誤判為瑕疵品（誤報）
FN（False Negative）：瑕疵品被誤判為正常品（漏抓）
TN（True Negative）：正常品被正確識別為正常品

精確率 = TP / (TP + FP)；召回率 = TP / (TP + FN)；F1-score = 2 × (精確率 × 召回率) / (精確率 + 召回率)。

什麼情況用 F1，什麼情況用 Accuracy：類別平衡時（各類別樣本差不多多），Accuracy 是好的指標。類別嚴重不平衡時（像本題 0.1% 瑕疵品），必須用 F1 或 AUC-ROC。

F1 的延伸：F-beta Score。當漏抓比誤報更嚴重時（如癌症篩查，漏診代價遠高於誤診），可以用 F2-score（更重視召回率）。當誤報比漏抓更嚴重時（如垃圾郵件過濾，重要郵件被誤刪比漏放垃圾郵件更嚴重），用 F0.5-score（更重視精確率）。

為什麼出題者考這題：AI 應用規劃師在部署品管、醫療、詐欺偵測等不平衡資料的 AI 系統時，必須選對評估指標。用準確率評估這些系統，等於自欺欺人，可能讓完全沒用的模型通過驗收。

05　陷阱

為什麼其他選項是錯的

B均方誤差（RMSE）

字面在說什麼

RMSE 計算預測值和真實值之間的「距離誤差」，常用於評估回歸模型的預測精度。

為什麼不對

RMSE 是回歸問題的指標，評估「預測數字」和「真實數字」的偏差（例如：預測房價 800 萬，實際 820 萬，誤差 20 萬）。本題是分類問題（判斷「瑕疵」或「正常」），輸出是類別，不是連續數值，RMSE 完全不適用。

誰會選錯

不清楚分類指標和回歸指標的適用場景，把所有指標當通用的人。先確認「我的任務是分類還是回歸」，再選對應的指標。

C準確率（Accuracy）

字面在說什麼

準確率 = 正確預測數 / 總預測數，是最直觀的分類模型指標。

為什麼不對

題目明確說「即使模型多數預測為正常品，仍可獲得很高的整體準確率」，直接告訴你準確率在這個情境下是失效的。準確率被多數類別主導，無法衡量對少數類別（瑕疵品）的辨識能力。選 C 等於跳回問題本身。

誰會選錯

沒有讀完整題幹就選「直覺上最熟悉的指標」的人。題目其實已經在解析裡告訴你答案不是準確率了。

D判定係數（R²）

字面在說什麼

R² 衡量迴歸模型能解釋多少比例的資料變異，是線性回歸的標準評估指標。

為什麼不對

R² 是回歸問題的指標，衡量「模型預測的數值」和「真實數值」的線性相關程度。本題是二元分類（瑕疵品 vs. 正常品），輸出是「是/否」，R² 完全不適用。

F1 分數（F1 Score）精確率與召回率的調和平均數，類別不平衡時比準確率更能反映少數類別辨識能力，本題正解
召回率（Recall）真實正例中被正確識別的比例，F1-score 的分子組成之一，瑕疵漏判代價高的場景優先保證召回率
精確率（Precision）預測為正例中真正是正例的比例，與召回率共同構成 F1-score，高精確率代表誤報少
準確率（Accuracy）所有預測中正確的比例，類別不平衡時被多數類別主導而失去意義，本題的干擾選項
ROC 曲線下面積（Area Under the ROC Curve）衡量分類模型在不同閾值下的整體辨識能力，不平衡資料的另一常用指標，與 F1 互補