F1 分數 是什麼?
F1 Score — F1 分數 的完整解釋
Precision 和 Recall 的調和平均數 = 2PR/(P+R),兼顧「找得準」和「找得全」
容易混淆
F1 vs 精確率 精確率看你說「是」的時候,有多少是真的。 F1 會把精確率和召回率一起納入。 最關鍵的區別:只看判斷準不準,還是同時看漏不漏。
F1 vs 召回率 召回率看真正的正例有多少被抓到。 F1 不允許只顧抓全而忽略誤報。 最關鍵的區別:只追求找全,還是找全又要找準。
F1 vs 準確率 準確率容易被多數類別撐高。 F1 在資料不平衡時通常更可靠。 最關鍵的區別:有沒有被多數類別騙到。
記住這句就好
精確率看準不準,召回率看全不全,F1 看兩者平衡。
實際案例
垃圾郵件過濾 如果模型只顧少誤判,可能會把很多真正垃圾信放進收件匣。 Before:只看準確率。After:改看 F1,才看得出模型是不是真的好。
癌症篩檢 醫療場景通常很怕漏掉病人,也怕誤報太多造成壓力。 Before:只看單一指標。After:用 F1 先看整體平衡,再依風險決定是否加權。
算法與應用
F1 = 2 × Precision × Recall / (Precision + Recall),這是調和平均,不是算術平均。
只要精確率或召回率其中一個很低,F1 就會被拉下來。
如果誤報和漏報的重要性不一樣,還可以看 F0.5 或 F2 這類變體。
情境判斷
Q1(直覺題): 一個模型精確率很高、召回率很低,F1 會怎樣?
→ 它不會高,因為 F1 會被低召回率拖下來,表示模型不是平衡的好模型。
Q2(判斷題): 漏報比誤報更嚴重時,F1 仍然是最好的選擇嗎?
→ 看情況。若你明顯偏重召回率,F2 通常更合適;如果誤報更可怕,則可能要看 F0.5。
F1 分數 在 iPAS 考試中的重點
根據歷年統計,F1 分數 相關題目 平均佔 AI 技術類考題 2%, 屬於未分類考範圍。
常見出題方向:模型評估指標與選擇(40%)、分類模型效能分析(35%)、不平衡資料集處理(25%)。
相關術語
常見問題
F1 的範圍是多少?
介於 0 到 1 之間,越接近 1 代表平衡越好。
怎麼改善 F1?
可以調閾值、補資料、做特徵工程,或換成更合適的模型。
多類別分類能用嗎?
可以,常見做法是算 Macro-F1 或 Weighted-F1。
資料來源
- iPAS AI 應用規劃師評鑑內容範圍參考(115.02) — 經濟部產業人才能力鑑定