F1 分數(F1 Score)是什麼?

Precision 和 Recall 的調和平均數 = 2PR/(P+R),兼顧「找得準」和「找得全」|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

F1 分數(F1 Score)是什麼? iPAS 模型評估統計方法

你有沒有看過垃圾郵件分類器,把重要信件丟進垃圾桶,卻又放進一堆廣告?

你可以把它想成,模型到底是「抓得準」還是「抓得全」都要一起看,不然只看一邊很容易被假高分騙過。

F1 分數就是把精確率和召回率一起算進來的指標,特別適合資料不平衡、又在乎漏報和誤報的場景。

容易混淆

F1 vs 精確率 精確率看你說「是」的時候,有多少是真的。 F1 會把精確率和召回率一起納入。 最關鍵的區別:只看判斷準不準,還是同時看漏不漏。

F1 vs 召回率 召回率看真正的正例有多少被抓到。 F1 不允許只顧抓全而忽略誤報。 最關鍵的區別:只追求找全,還是找全又要找準。

F1 vs 準確率 準確率容易被多數類別撐高。 F1 在資料不平衡時通常更可靠。 最關鍵的區別:有沒有被多數類別騙到。

記住這句就好

精確率看準不準,召回率看全不全,F1 看兩者平衡。

實際案例

垃圾郵件過濾 如果模型只顧少誤判,可能會把很多真正垃圾信放進收件匣。 Before:只看準確率。After:改看 F1,才看得出模型是不是真的好。

癌症篩檢 醫療場景通常很怕漏掉病人,也怕誤報太多造成壓力。 Before:只看單一指標。After:用 F1 先看整體平衡,再依風險決定是否加權。

算法與應用

F1 = 2 × Precision × Recall / (Precision + Recall),這是調和平均,不是算術平均。

只要精確率或召回率其中一個很低,F1 就會被拉下來。

如果誤報和漏報的重要性不一樣,還可以看 F0.5 或 F2 這類變體。

情境判斷

Q1(直覺題): 一個模型精確率很高、召回率很低,F1 會怎樣?

→ 它不會高,因為 F1 會被低召回率拖下來,表示模型不是平衡的好模型。

Q2(判斷題): 漏報比誤報更嚴重時,F1 仍然是最好的選擇嗎?

→ 看情況。若你明顯偏重召回率,F2 通常更合適;如果誤報更可怕,則可能要看 F0.5。

iPAS 考題

Q:F1 分數為什麼比準確率更適合不平衡資料? → 因為它同時看精確率與召回率,不容易被多數類別撐高。

Q:F1 分數怎麼算? → F1 = 2PR/(P+R),是精確率與召回率的調和平均。

常見問題

F1 的範圍是多少?

介於 0 到 1 之間,越接近 1 代表平衡越好。

怎麼改善 F1?

可以調閾值、補資料、做特徵工程,或換成更合適的模型。

多類別分類能用嗎?

可以,常見做法是算 Macro-F1 或 Weighted-F1。

立即測驗

想測試你對 F1 分數 的掌握程度? 開始模擬考