你考試拿了 95 分,聽起來很厲害,但如果全班都拿 95 分以上呢?
準確率就是「所有預測裡面猜對的比例」,公式是 (TP+TN)/(全部)。聽起來簡單直覺,但它有一個致命弱點:當資料類別嚴重不平衡時,準確率會騙你。假設 100 個病人裡只有 1 個有癌症,一個什麼都不做的模型直接說「全部沒癌症」就能拿到 99% 準確率,但那個真正有癌症的人被漏掉了。
所以準確率只是模型評估的起點,不是終點。
就像先用生活中的例子抓住核心用途,再回頭看名詞和公式,理解會穩很多。
容易混淆
準確率 vs 精確率(Precision)vs 召回率(Recall)
準確率:所有預測中猜對的比例,不分類別。
精確率:模型說「是」的裡面,真的是的比例。
召回率:所有真的是的樣本中,模型抓出來的比例。
最關鍵的區別:準確率看「整體對不對」,精確率看「說是的準不準」,召回率看「漏掉多少」。
記住這句就好
猜對的除以全部,但類別不平衡時會騙人。
實際案例
垃圾郵件過濾器
一個郵件過濾器準確率 98%,聽起來不錯。但實際上 95% 的郵件本來就是正常郵件,這個過濾器只是把大部分郵件都標成「正常」,對垃圾郵件的偵測率其實只有 60%。改用 F1 分數評估後才發現問題。
信用卡詐欺偵測
某銀行的詐欺偵測模型準確率 99.9%,但每天 100 萬筆交易裡只有 100 筆是詐欺。模型全部預測「不是詐欺」也能達到 99.99% 準確率,卻完全沒有抓到任何一筆詐欺交易。
深入了解
混淆矩陣與準確率的關係
指標 公式 適用場景 準確率(Accuracy) (TP+TN)/(TP+TN+FP+FN) 類別平衡的資料集 精確率(Precision) TP/(TP+FP) 誤報成本高的場景(如垃圾郵件) 召回率(Recall) TP/(TP+FN) 漏報成本高的場景(如癌症篩檢) F1 分數 2×P×R/(P+R) 需要兼顧精確率和召回率
情境判斷
Q1(直覺題): 你的模型在測試集上準確率 92%,資料集有 50% 正樣本、50% 負樣本。這個準確率可信嗎?
→ 可信。因為類別平衡,92% 準確率代表模型確實學到了有意義的模式,不是靠預測多數類灌水。
Q2(判斷題): 你在做罕見疾病篩檢,患病率只有 0.1%。模型 A 準確率 99.9%,模型 B 準確率 95%。你應該選哪個?
→ 不能只看準確率。模型 A 可能只是全部預測「沒病」就拿到 99.9%。你應該看召回率(漏掉多少病人)和精確率(誤判多少健康人),用 F1 分數或 AUC-ROC 做綜合判斷。
iPAS 考題
Q1: 在類別不平衡的資料集中,以下哪個指標最不適合用來評估模型效能? (A) 準確率 (B) F1 分數 (C) AUC-ROC (D) 精確率
→ (A) 準確率。類別不平衡時,模型只要預測多數類就能拿到很高的準確率,無法反映模型對少數類的偵測能力。
常見問題
準確率多高才算好?
沒有絕對標準,取決於任務和基準線。如果隨機猜的準確率是 50%,那 70% 就有意義。如果資料不平衡導致隨機猜也有 95%,那 96% 可能毫無價值。永遠要跟基準線比。
準確率和錯誤率是什麼關係?
錯誤率 = 1 - 準確率。準確率 92% 就是錯誤率 8%。兩者是互補的。
深度學習模型的準確率一定比傳統方法高嗎?
不一定。在資料量小或特徵明確的任務上,決策樹、邏輯回歸等傳統方法可能表現更好。深度學習的優勢在大量資料和複雜模式的場景。