iPAS AI 應用規劃師中級　科目三　機器學習技術與應用

標籤偏差是怎麼產生的？

原題 13

標籤偏差（Label Bias）通常是因為什麼原因造成？

白話

在機器學習中，訓練資料需要被「標記」，例如照片標記成「貓」或「狗」，評論標記成「正面」或「負面」。這個標記過程可能引入一種叫做「標籤偏差」的問題。

問你：標籤偏差（Label Bias）通常是因為什麼原因造成的？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

標籤偏差的根本原因是標記資料本身帶有主觀偏見：當標注者依據個人觀念、文化背景或特定立場來貼標籤時，這些偏見就被「學進」模型，讓模型的判斷偏向標注者的主觀認定，而不是客觀事實。

02　情境

先感受問題：AI 學的是你給的標籤，不是「正確答案」

「台北人資中心」開發一個履歷篩選 AI，要把履歷標記成「適合面試」或「不適合」。他們請了 5 位 HR 人員分別為 1000 份履歷貼標籤。

問題出現了：

甲 HR 習慣篩掉非名校畢業生，認為學歷代表能力。
乙 HR 對特定科系有偏好，把理工科的履歷評為「更適合」。
丙 HR 對某種履歷格式有成見，版面漂亮的分數更高。

當 AI 用這些標籤訓練完成，它學到的其實是「甲乙丙 HR 各自的偏見」，而不是「這個人是否真的適合這份工作」。這就是標籤偏差。

03　對照

標籤偏差從哪幾個地方滲入？

標注者的個人偏見：標注者的價值觀、偏好、文化背景會不自覺地影響他們的判斷，例如對某個族裔、性別或背景的刻板印象。
標注者之間的不一致：同一筆資料，不同標注者可能給出不同標籤（標注者一致性低），導致模型在模糊情況下的判斷不穩定。
主觀問題沒有唯一正解：情感分析、毒性文字偵測等任務本身就存在主觀性，「這句話算不算攻擊性？」不同人有不同答案。
標注指南設計不當：如果標注規則本身就包含有偏的描述或例子，所有標注者都會照著偏見方向走。
標注者組成不夠多元：如果所有標注者都是相同背景的人，他們的「集體偏見」會被放大，少數群體的觀點完全缺席。

04　解法

怎麼減少標籤偏差

台北人資中心的 AI 倫理師建議：

首先，建立明確的標注指南，定義「適合面試」的客觀標準（如工作年資、相關技能），而非依賴 HR 的直覺判斷。

其次，採用多人標注（至少 3 人）並計算標注者一致性（Inter-Annotator Agreement），低一致性的項目重新討論後再決定。

最後，讓標注者組成多元化，包括不同背景、性別、年齡的人，讓偏見相互抵消而非疊加。

這就是選項 B 講的：標記資料本身帶有主觀偏見，正是標籤偏差的核心成因。

技術版：標籤偏差在 AI 倫理與資料品質中的位置

標籤偏差（Label Bias）屬於 AI 偏見（Bias in AI）的一個子類型，是資料偏見（Data Bias）在標注階段的具體體現。

在 AI 領域的位置：AI 系統的偏見可以來自資料收集（抽樣偏差）、資料標注（標籤偏差）、模型設計（歸納偏差）、或部署情境（反饋循環偏差）。標籤偏差發生在「資料準備」階段，一旦帶有偏見的標籤進入訓練，就會被模型學習並放大。

實務上的緩解方法：

Inter-Annotator Agreement（標注者一致性）：用 Cohen's Kappa 或 Fleiss' Kappa 衡量多個標注者之間的一致程度，低 Kappa 值代表標注品質有問題。
對抗性去偏（Adversarial Debiasing）：訓練時加入一個「判斷者」網路，讓主模型學到的表示儘量不包含敏感特徵的資訊。
公平性審計（Fairness Audit）：訓練後對不同子群體（性別、族裔等）分別計算效能指標，找出系統性差距。

為什麼出題者要考這題：AI 倫理與偏見是中級考試的重要考點，標籤偏差是最具體、最容易理解的偏見類型，也是資料科學師日常工作中最直接能介入和改善的環節。

05　陷阱

為什麼其他選項是錯的

A訓練資料量過大

字面在說什麼

資料量越多越好，但也許資料量太多反而引入了更多噪音或偏差？

為什麼不對

標籤偏差和資料量的多少沒有直接關係。即使只有少量資料，只要標注者帶有主觀偏見，標籤偏差就會存在。反過來，即使有大量資料，如果標注過程客觀且一致，也不會有標籤偏差。偏差的根源在標注的「品質與主觀性」，不在「數量」。

誰會選錯

把「資料問題」等同於「資料量問題」的人。資料的偏差問題是質的問題，不是量的問題，資料多只會放大已有的偏差，不會造成新的「標籤偏差」。

C模型結構設計不當

字面在說什麼

模型架構設計不好（例如太淺、層數不足）可能導致效能差或偏差。

為什麼不對

模型結構設計不當是「模型偏差（Model Bias / Inductive Bias）」或「欠擬合」的原因，不是「標籤偏差」的原因。標籤偏差是資料層面的問題，在資料準備階段就已經存在，與模型架構無關。就算換用最先進的模型架構，帶有偏見的標籤仍然會讓模型學到偏差。

誰會選錯

把所有模型效能問題都歸結到架構設計的人。模型效能不好有很多原因，標籤偏差是資料問題，而模型架構不當是設計問題，兩者屬於不同層面。

D特徵數量設定過多

字面在說什麼

特徵太多可能導致維度詛咒（Curse of Dimensionality）或過擬合，進而影響模型效能。

為什麼不對

特徵數量過多是「特徵工程」層面的問題，可能導致過擬合，但這和「標籤偏差」是完全不同的概念。標籤偏差是「答案（標籤）本身有偏見」，而特徵過多是「輸入（特徵）的冗餘性」問題。兩者分屬資料準備的不同環節。

誰會選錯

把偏差問題和特徵工程問題混在一起的人。「偏差（Bias）」這個詞在 ML 中有多個層次的含義，要根據「標籤偏差」的具體定義（標注的主觀性）來判斷，不是所有叫做「偏差」的問題都跟特徵或模型有關。

06　變形

同個考點下次怎麼變形

變形 1

標籤偏差和資料偏差有什麼不同？

直覺

偏差好像有很多種，「Label Bias」和「Data Bias」是一樣的東西嗎？

答案

資料偏差是更廣的概念，包含抽樣偏差（採集的資料不代表真實分布）、測量偏差（測量工具本身有誤差）等。標籤偏差特指在「標注」這個步驟中引入的偏差，原因是標注者的主觀偏見或不一致。資料偏差是標籤偏差的上位概念，標籤偏差是資料偏差的一種。

變形 2

如何量化標注者之間的一致性？

直覺

5 個人給 1000 份資料貼標籤，怎麼知道他們的判斷有多一致？

答案

常用 Cohen's Kappa（兩位標注者）或 Fleiss' Kappa（三位以上），它們計算的是「超出純粹隨機一致性的一致程度」。Kappa > 0.8 為高度一致，0.6-0.8 為中度，< 0.6 代表標注品質有疑慮，需要重新討論標注規則。

變形 3

模型訓練完後如何偵測它學到了標籤偏差？

直覺

偏差是在資料準備階段引入的，但訓練完的模型要怎麼診斷它是否帶有偏差？

答案

公平性審計（Fairness Audit）：對不同子群體（例如不同性別的履歷）分別計算準確率、召回率，找出系統性效能差距。SHAP 或 LIME 等可解釋性工具也能幫助識別模型是否在不應該影響判斷的特徵（如姓名、性別）上賦予了過高的重要性。

變形 4

自動化標注（弱監督學習）能消除標籤偏差嗎？

直覺

如果讓程式自動生成標籤，就不需要人工標注，偏差是不是就消失了？

答案

不一定。自動化標注規則（labeling functions）本身也可能帶有偏見，例如「含有特定關鍵字就標記為負面」，這個規則的設計者可能帶入了主觀預設。偏差從「人工標注者」轉移到「設計規則的工程師」，根本問題並未消失，只是換了形式。

變形 5

AI 公平性和 AI 準確率是同一件事嗎？

直覺

一個準確率很高的模型，是不是就代表它公平、無偏差？

答案

不是。高準確率的模型仍然可能帶有偏差。例如：一個履歷篩選 AI 的整體準確率是 95%，但在女性履歷上的召回率只有 60%（大量漏掉合適的女性應徵者）。這個模型雖然「準確率高」，但對女性群體有系統性偏差，是不公平的。公平性需要單獨對不同子群體評估，不能用整體準確率代替。

07　延伸

想再往下看，這 5 個

AI 偏見（Bias in AI）標籤偏差的上位概念，涵蓋資料收集、標注、模型設計到部署各環節可能引入的偏差類型。
資料標注（Data Annotation）監督式學習的基礎工程，標注品質直接決定模型學到的是客觀知識還是主觀偏見。
標注者一致性（Inter-Annotator Agreement）量化多位標注者判斷一致程度的指標，低一致性是標籤偏差的早期預警信號。
AI 公平性（Fairness in AI）評估模型對不同群體是否給予公平對待的框架，是解決標籤偏差問題的驗證環節。
演算法偏見（Algorithmic Bias）從帶有偏差的標籤中學習、並在預測時系統性偏向某群體的模型行為，是標籤偏差的直接後果。