F1 分數 是什麼?

F1 Score — F1 分數 的完整解釋

Precision 和 Recall 的調和平均數 = 2PR/(P+R),兼顧「找得準」和「找得全」

容易混淆

F1 vs 精確率 精確率看你說「是」的時候,有多少是真的。 F1 會把精確率和召回率一起納入。 最關鍵的區別:只看判斷準不準,還是同時看漏不漏。

F1 vs 召回率 召回率看真正的正例有多少被抓到。 F1 不允許只顧抓全而忽略誤報。 最關鍵的區別:只追求找全,還是找全又要找準。

F1 vs 準確率 準確率容易被多數類別撐高。 F1 在資料不平衡時通常更可靠。 最關鍵的區別:有沒有被多數類別騙到。

記住這句就好

精確率看準不準,召回率看全不全,F1 看兩者平衡。

實際案例

垃圾郵件過濾 如果模型只顧少誤判,可能會把很多真正垃圾信放進收件匣。 Before:只看準確率。After:改看 F1,才看得出模型是不是真的好。

癌症篩檢 醫療場景通常很怕漏掉病人,也怕誤報太多造成壓力。 Before:只看單一指標。After:用 F1 先看整體平衡,再依風險決定是否加權。

算法與應用

F1 = 2 × Precision × Recall / (Precision + Recall),這是調和平均,不是算術平均。

只要精確率或召回率其中一個很低,F1 就會被拉下來。

如果誤報和漏報的重要性不一樣,還可以看 F0.5 或 F2 這類變體。

情境判斷

Q1(直覺題): 一個模型精確率很高、召回率很低,F1 會怎樣?

→ 它不會高,因為 F1 會被低召回率拖下來,表示模型不是平衡的好模型。

Q2(判斷題): 漏報比誤報更嚴重時,F1 仍然是最好的選擇嗎?

→ 看情況。若你明顯偏重召回率,F2 通常更合適;如果誤報更可怕,則可能要看 F0.5。

F1 分數 在 iPAS 考試中的重點

根據歷年統計,F1 分數 相關題目 平均佔 AI 技術類考題 2%, 屬於未分類考範圍。

常見出題方向:模型評估指標與選擇(40%)、分類模型效能分析(35%)、不平衡資料集處理(25%)。

相關術語

常見問題

F1 的範圍是多少?

介於 0 到 1 之間,越接近 1 代表平衡越好。

怎麼改善 F1?

可以調閾值、補資料、做特徵工程,或換成更合適的模型。

多類別分類能用嗎?

可以,常見做法是算 Macro-F1 或 Weighted-F1。

資料來源

← 回到 F1 分數 快查頁

測驗你對 F1 分數 的理解

透過模擬考系統檢驗學習成果

開始測驗