iPAS AI 應用規劃師中級　科目三　機器學習技術與應用

情感分析模型跨語言後 F1 驟降，最合理的解釋是什麼？

原題 30

某情感分析模型在英文資料集上取得 macro F1-score = 0.91。當該模型部署於西班牙文資料集時，F1-score 驟降至 0.58。下列哪一項解釋最合理，且與 F1-score 變化相關？

白話

一個情感分析模型在英文資料集上的 macro F1-score 是 0.91，表現很好。但當同一個模型被用在西班牙文資料集時，F1-score 驟降到 0.58，表現大幅下滑。

問你：模型從英文切換到西班牙文後 F1 大幅下降，哪一項解釋最合理且與 F1-score 的計算直接相關？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

模型跨語言後 F1 驟降，最合理的解釋是：語言轉移造成召回率（Recall）下降，模型無法正確辨識關鍵情緒詞彙——F1 是精確率和召回率的調和平均，當模型在新語言中遺漏大量情緒詞彙（召回率下降），F1 必然大幅下滑。

02　情境

先感受問題：「muy feliz」跟「very happy」一樣嗎？

你是一家跨國電商客服平台的 NLP 工程師。你們的情感分析模型用 500 萬筆英文評論訓練，能準確判斷「I love this product!」是正面情感（F1 = 0.91）。

行銷部門要求把同一個模型用在西班牙語市場的顧客評論上。結果 F1 驟降到 0.58——大量西班牙文評論被判斷為「中性」，實際上卻是非常正面或非常負面的情緒。

為什麼？

模型在英文訓練時學到的情緒詞彙（excited、terrible、amazing）在西班牙文中完全不存在。
西班牙文的情緒表達方式不同：強調詞（muy、bastante）、感嘆句語序、文化特有的比喻，模型從未見過。
結果是：模型能辨識的情緒詞彙大幅減少，大量真正有情緒的句子被「錯過」——召回率（Recall）大幅下降。

召回率下降直接拉低 F1，這就是「語言轉移」問題的典型症狀。

03　對照

為什麼語言轉移會讓 F1 大幅下降

詞彙表不重疊：模型在英文上學到的詞向量（Word Embeddings）對西班牙文詞彙完全陌生，遇到未知詞時輸出隨機或中性預測，讓大量情緒樣本「逃脫」偵測。
語法結構差異：西班牙文是更靈活的語法語言（SOV vs SVO、形容詞位置不同），英文訓練的模型對西班牙文的情緒強調位置判斷失準。
文化特有情緒表達：不同語言文化有各自的情緒表達慣例（諷刺、誇張、委婉），模型在英文中學的情緒模式在西班牙文中可能根本不適用。
召回率首先受衝擊：模型傾向「謹慎」——在不確定的情況下預測中性，導致真正的正面/負面評論大量被遺漏（假負率升高、召回率下降）。
F1 被召回率下降拖累：F1 = 2 × (Precision × Recall) / (Precision + Recall)，召回率下降直接使 F1 大幅下滑，即使精確率維持也無法補救。

04　解法

語言轉移如何解釋 F1 從 0.91 到 0.58

客服平台的場景讓我們看到 F1 驟降的機制：

在英文上（F1 = 0.91）：模型能辨識 91% 的情緒詞彙，精確率和召回率都高。
換到西班牙文（F1 = 0.58）：模型只認識少數借詞和命名實體（例如品牌名），大量西班牙文情緒詞彙被忽視或標為中性。
召回率下降的具體表現：一則「¡Este producto es fantástico, lo recomiendo a todos!」（這個產品太棒了，我強烈推薦所有人！）被模型判為中性——它不認識 fantástico、recomiendo，也不理解「!」在西班牙文情緒表達中的強調意義。
F1 的計算揭示機制：macro F1 對每個類別計算 F1 再取平均。西班牙文中「正面」類別的召回率從 0.90 掉到 0.50（遺漏大半正面評論），「負面」召回率從 0.88 掉到 0.55，整體 macro F1 自然從 0.91 掉到約 0.58。

這就是選項 C 講的：語言轉移造成召回率（Recall）下降，模型無法正確辨識關鍵情緒詞彙。

技術版：F1-score、Recall 與跨語言遷移學習

這題涉及自然語言處理（NLP）評估指標與跨語言遷移學習兩個面向。

F1-score 的結構：F1 = 2PR/(P+R)，是精確率 P（預測為正的有多少真的是正）和召回率 R（真正為正的有多少被找到）的調和平均。召回率下降對 F1 的傷害是非線性的：若 P=0.9、R=0.5，F1 ≈ 0.64，比 P=0.8、R=0.8 的 F1 = 0.80 差很多。

macro 與 micro F1 的差別：

macro F1：每個類別獨立計算 F1，取平均，不考慮類別樣本量。適合各類別同等重要（情感分析：正/負/中性各佔一席）。
micro F1：把所有類別的 TP/FP/FN 加總後再計算，多數類別佔主導。適合類別不平衡且大類更重要的場景。

跨語言問題的解法：（1）多語言預訓練模型（mBERT、XLM-R）：在 100+ 語言上預訓練，語言轉移能力強；（2）遷移學習微調（Fine-tuning）：在目標語言的少量標注資料上微調；（3）翻譯後訓練：把西班牙文評論翻譯成英文再評估（Zero-shot Cross-lingual Transfer）；（4）機器翻譯訓練資料：把英文訓練集翻成西班牙文，在混合語料上訓練。

為什麼出題者要考這題：F1、Recall 的理解是 NLP 評估的基礎，跨語言遷移是 NLP 工程師的核心挑戰。能把「語言轉移」和「召回率下降」連結到「F1 下降」，需要同時理解 F1 的數學結構和 NLP 模型的語言特性。

05　陷阱

為什麼其他選項是錯的

Amacro F1-score 本身波動性高，建議改用 micro-average F1-score 評估

字面在說什麼

macro F1 計算每個類別的平均，如果樣本量不均衡，可能讓評估指標不穩定。

為什麼不對

F1 從 0.91 降到 0.58 這個幅度（0.33 的差距）不是指標波動性的問題——任何版本的 F1 都不可能有如此大的隨機波動。這是真實的效能衰退，不是評估指標選擇的問題。改用 micro F1 可能讓分數看起來不同，但無法解釋或解決為什麼模型在西班牙文上預測失準。

誰會選錯

聽過「macro 和 micro F1 的差別」但沒有深入理解它們的適用場景，看到「F1 指標問題」就想到換指標的人。題目的問題是「模型在新語言上表現差」，不是「選了不合適的評估指標」。

B模型在西班牙文語料上過度擬合，導致評估結果偏高

字面在說什麼

過擬合讓模型在訓練集上 F1 偏高，在其他資料上 F1 偏低。

為什麼不對

題目說的是「部署於西班牙文資料集時 F1 驟降」，這是在測試集上觀察到的現象，不是訓練集的過擬合問題。而且模型從未在西班牙文資料上訓練過（題目說是英文資料集訓練），更談不上在西班牙文上過擬合。「過擬合導致評估結果偏高」的說法在邏輯上也不通——過擬合讓評估結果偏低（在測試集上），而非偏高。

誰會選錯

看到「F1 變化」就聯想到「過擬合」的人，沒有注意到「西班牙文資料集」是模型從未見過的新語言，不是訓練時的資料。

D以均方誤差（MSE）取代 F1-score 評估可獲得更準確的結果

字面在說什麼

MSE 是迴歸問題的評估指標，衡量預測值和真實值的平均平方差。

為什麼不對

情感分析是分類問題（正面/負面/中性），F1 是分類任務的正確評估指標。MSE 用於迴歸問題（預測連續數值），完全不適合分類任務。把 MSE 套到分類問題，在技術上說不通，更無法「獲得更準確的結果」。這個選項是在混淆分類指標和迴歸指標。

誰會選錯

對評估指標的適用範圍不熟悉，看到「評估效能」就直覺選 MSE 的人。記住：分類問題用 F1/Accuracy/AUC；迴歸問題用 MSE/RMSE/MAE；兩者不混用。

06　變形

同個考點下次怎麼變形

變形 1

macro F1 和 weighted F1 各適合什麼場景？

直覺

情感分析有三個類別：正面、負面、中性，各類別樣本量不同，選哪個 F1？

答案

macro F1：對每個類別平等對待，適合「各類別同等重要，不論樣本量」的場景（例如稀有疾病診斷，少數類別也很重要）。weighted F1：按各類別樣本量加權平均，適合「多數類別更重要，可以忍受少數類別表現差」的場景。情感分析若三個類別同等重要，用 macro F1；若「中性」評論佔大多數且關注整體表現，用 weighted F1。

變形 2

召回率下降和精確率下降，對 F1 的影響是一樣的嗎？

直覺

F1 = 2PR/(P+R)，看起來 P 和 R 是對稱的，影響應該一樣？

答案

對 F1 的衝擊是一樣的（因為公式對稱），但對業務影響不同：召回率下降代表「遺漏了真實的正面/負面評論」（假負率升高），對情感分析的危害更大，因為你根本不知道有多少情緒評論被錯過；精確率下降代表「把不相關的評論誤判為有情緒」（假正率升高），行銷人員看到的情緒資料更多噪音。根據業務目標選擇要優先最佳化哪個。

變形 3

什麼是 Zero-shot Cross-lingual Transfer？

直覺

如果西班牙文沒有標注資料，能不能直接用英文模型推論？

答案

Zero-shot Cross-lingual Transfer 是用在語言 A 上訓練的模型，直接應用到語言 B（沒有 B 的訓練資料）。在多語言預訓練模型（如 XLM-R）出現前，這種方式效果很差（就是本題的情境）。現代的 XLM-R、mBERT 在 100+ 語言上預訓練，具備一定的跨語言遷移能力，Zero-shot 應用到西班牙文的 F1 通常可達 0.70-0.80（遠比本題的 0.58 好），但仍不如在西班牙文標注資料上微調（Fine-tuning）。

變形 4

F1 = 0.58 和 F1 = 0.91，在業務上差多少？

直覺

0.91 到 0.58 數字差了 0.33，在業務上意味著什麼？

答案

舉例量化影響：假設客服系統每天處理 10,000 則西班牙文評論。F1=0.91 時，大約 900 則評論被錯誤分類；F1=0.58 時，大約 4,200 則被錯誤分類（假設均等分佈，誤差率從 9% 升到 42%）。這意味著行銷部門看到的情緒報告有近一半是錯的，可能導致錯誤的商業決策（例如：大量負面評論被忽略，誤以為西班牙市場反應良好）。F1 每降 0.1，業務可信度大約打七折。

變形 5

如何最快解決本題的跨語言 F1 下降問題？

直覺

有沒有不需要大量人工標注西班牙文資料的快速解決方案？

答案

速度由快到慢：（1）用多語言模型替換：把單語言模型換成 XLM-R 或 mBERT，無需任何額外訓練，F1 通常立即提升到 0.70+ ；（2）機器翻譯 + 原模型：把西班牙文先翻成英文，再用英文模型分析，雖然翻譯引入誤差但快速可行；（3）少量標注微調：標注 500-1000 則西班牙文評論，在 XLM-R 上微調，F1 通常可達 0.83+；（4）全量標注重訓：最佳效果，但成本最高。首選方案 (1)，成本最低效果最顯著。

07　延伸

想再往下看，這 5 個

F1 Score（F1 分數）本題核心指標，精確率與召回率的調和平均，情感分類任務的標準評估工具。
召回率（Recall）F1 驟降的主要原因，模型遺漏了大量真實情緒樣本，召回率下降直接拉低 F1。
遷移學習（Transfer Learning）跨語言遷移學習是 NLP 最重要的實務技術，多語言預訓練模型大幅降低跨語言問題的門檻。
情感分析（Sentiment Analysis）本題的任務類型，判斷文本正負情緒，F1-score 是評估情感分析模型的核心指標。
機器翻譯（Machine Translation）跨語言問題的快速解法之一，把目標語言翻成源語言再分析，或把訓練資料翻譯後擴充。