兩個分類模型都說自己很準,怎麼知道誰比較會分正負樣本? 你可以把 ROC 曲線下面積想成模型的排序能力分數,它看的是整體區分力。 它不只看一個門檻,而是把不同門檻下的表現都考慮進去。
你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。
容易混淆
AUC vs 準確率? AUC:看模型把正例排在負例前面的能力 準確率:看某個固定門檻下答對多少 最關鍵的區別:AUC 看整體排序,準確率看單一門檻
AUC vs 精確率? AUC:不直接受正負樣本比例影響太大 精確率:很受正例比例影響 最關鍵的區別:AUC 適合樣本不平衡時比較模型整體區分力
AUC vs ROC 曲線? AUC:重點是曲線面積 ROC 曲線:重點是不同門檻下的 TPR 與 FPR 最關鍵的區別:ROC 是圖,AUC 是把圖摘要成一個數字
記住這句就好
AUC 越高,代表模型把正例排前面的能力越強
實際案例
醫療篩檢 醫師想先把高風險病人排前面,AUC 高的模型通常比較能把真正陽性者往前排
詐欺偵測 交易量很大、正例很少時,AUC 能幫你比較模型是不是有把可疑交易排到前面
算法與應用
重點 你要看什麼 為什麼重要 橫軸 假陽性率 FPR 代表誤把負例判成正例的比例 縱軸 真正率 TPR 代表正例被抓到的比例 數值 曲線下面積 0 到 1 越接近 1 越好,0.5 近似隨機
情境判斷
Q1:AUC 0.92 的模型和 AUC 0.81 的模型相比,通常哪個整體區分力較好? → 0.92 的模型通常較好,因為它在各種門檻下更常把正例排前面
Q2:如果你的業務只在意某個很高的召回率區間,AUC 還是唯一指標嗎? → 不是,這時還要看特定門檻下的召回率、精確率和成本,AUC 只能當總覽
常見問題
AUC 1.0 代表模型絕對完美嗎?
在測試資料上代表它能完全排序,但真實世界仍可能因資料漂移、標註問題而失準。
AUC 0.5 是不是沒用?
通常表示接近隨機猜測,但也要先確認標籤是否正確、特徵是否真的有資訊。
多分類也能用 AUC 嗎?
可以,常見做法是 One-vs-Rest 或 One-vs-One,先把多分類拆成多個二元比較。