iPAS AI 應用規劃師 中級 科目三 機器學習技術與應用

標籤偏差是怎麼產生的?

原題 13

標籤偏差(Label Bias)通常是因為什麼原因造成?

白話

在機器學習中,訓練資料需要被「標記」,例如照片標記成「貓」或「狗」,評論標記成「正面」或「負面」。這個標記過程可能引入一種叫做「標籤偏差」的問題。

問你:標籤偏差(Label Bias)通常是因為什麼原因造成的?

點選你的答案。

01 總結

一句話總結

標籤偏差的根本原因是標記資料本身帶有主觀偏見:當標注者依據個人觀念、文化背景或特定立場來貼標籤時,這些偏見就被「學進」模型,讓模型的判斷偏向標注者的主觀認定,而不是客觀事實

02 情境

先感受問題:AI 學的是你給的標籤,不是「正確答案」

「台北人資中心」開發一個履歷篩選 AI,要把履歷標記成「適合面試」或「不適合」。他們請了 5 位 HR 人員分別為 1000 份履歷貼標籤。

問題出現了:

  • 甲 HR 習慣篩掉非名校畢業生,認為學歷代表能力。
  • 乙 HR 對特定科系有偏好,把理工科的履歷評為「更適合」。
  • 丙 HR 對某種履歷格式有成見,版面漂亮的分數更高。

當 AI 用這些標籤訓練完成,它學到的其實是「甲乙丙 HR 各自的偏見」,而不是「這個人是否真的適合這份工作」。這就是標籤偏差。

03 對照

標籤偏差從哪幾個地方滲入?

  1. 標注者的個人偏見:標注者的價值觀、偏好、文化背景會不自覺地影響他們的判斷,例如對某個族裔、性別或背景的刻板印象。
  2. 標注者之間的不一致:同一筆資料,不同標注者可能給出不同標籤(標注者一致性低),導致模型在模糊情況下的判斷不穩定。
  3. 主觀問題沒有唯一正解:情感分析、毒性文字偵測等任務本身就存在主觀性,「這句話算不算攻擊性?」不同人有不同答案。
  4. 標注指南設計不當:如果標注規則本身就包含有偏的描述或例子,所有標注者都會照著偏見方向走。
  5. 標注者組成不夠多元:如果所有標注者都是相同背景的人,他們的「集體偏見」會被放大,少數群體的觀點完全缺席。
04 解法

怎麼減少標籤偏差

台北人資中心的 AI 倫理師建議:

首先,建立明確的標注指南,定義「適合面試」的客觀標準(如工作年資、相關技能),而非依賴 HR 的直覺判斷。

其次,採用多人標注(至少 3 人)並計算標注者一致性(Inter-Annotator Agreement),低一致性的項目重新討論後再決定。

最後,讓標注者組成多元化,包括不同背景、性別、年齡的人,讓偏見相互抵消而非疊加。

這就是選項 B 講的:標記資料本身帶有主觀偏見,正是標籤偏差的核心成因。

技術版:標籤偏差在 AI 倫理與資料品質中的位置

標籤偏差(Label Bias)屬於 AI 偏見(Bias in AI)的一個子類型,是資料偏見(Data Bias)在標注階段的具體體現。

在 AI 領域的位置:AI 系統的偏見可以來自資料收集(抽樣偏差)、資料標注(標籤偏差)、模型設計(歸納偏差)、或部署情境(反饋循環偏差)。標籤偏差發生在「資料準備」階段,一旦帶有偏見的標籤進入訓練,就會被模型學習並放大。

實務上的緩解方法:

  • Inter-Annotator Agreement(標注者一致性):用 Cohen's Kappa 或 Fleiss' Kappa 衡量多個標注者之間的一致程度,低 Kappa 值代表標注品質有問題。
  • 對抗性去偏(Adversarial Debiasing):訓練時加入一個「判斷者」網路,讓主模型學到的表示儘量不包含敏感特徵的資訊。
  • 公平性審計(Fairness Audit):訓練後對不同子群體(性別、族裔等)分別計算效能指標,找出系統性差距。

為什麼出題者要考這題:AI 倫理與偏見是中級考試的重要考點,標籤偏差是最具體、最容易理解的偏見類型,也是資料科學師日常工作中最直接能介入和改善的環節。

05 陷阱

為什麼其他選項是錯的

A訓練資料量過大

字面在說什麼

資料量越多越好,但也許資料量太多反而引入了更多噪音或偏差?

為什麼不對

標籤偏差和資料量的多少沒有直接關係。即使只有少量資料,只要標注者帶有主觀偏見,標籤偏差就會存在。反過來,即使有大量資料,如果標注過程客觀且一致,也不會有標籤偏差。偏差的根源在標注的「品質與主觀性」,不在「數量」。

誰會選錯

把「資料問題」等同於「資料量問題」的人。資料的偏差問題是質的問題,不是量的問題,資料多只會放大已有的偏差,不會造成新的「標籤偏差」。

C模型結構設計不當

字面在說什麼

模型架構設計不好(例如太淺、層數不足)可能導致效能差或偏差。

為什麼不對

模型結構設計不當是「模型偏差(Model Bias / Inductive Bias)」或「欠擬合」的原因,不是「標籤偏差」的原因。標籤偏差是資料層面的問題,在資料準備階段就已經存在,與模型架構無關。就算換用最先進的模型架構,帶有偏見的標籤仍然會讓模型學到偏差。

誰會選錯

把所有模型效能問題都歸結到架構設計的人。模型效能不好有很多原因,標籤偏差是資料問題,而模型架構不當是設計問題,兩者屬於不同層面。

D特徵數量設定過多

字面在說什麼

特徵太多可能導致維度詛咒(Curse of Dimensionality)或過擬合,進而影響模型效能。

為什麼不對

特徵數量過多是「特徵工程」層面的問題,可能導致過擬合,但這和「標籤偏差」是完全不同的概念。標籤偏差是「答案(標籤)本身有偏見」,而特徵過多是「輸入(特徵)的冗餘性」問題。兩者分屬資料準備的不同環節。

誰會選錯

把偏差問題和特徵工程問題混在一起的人。「偏差(Bias)」這個詞在 ML 中有多個層次的含義,要根據「標籤偏差」的具體定義(標注的主觀性)來判斷,不是所有叫做「偏差」的問題都跟特徵或模型有關。

06 變形

同個考點下次怎麼變形

變形 1

標籤偏差和資料偏差有什麼不同?

直覺

偏差好像有很多種,「Label Bias」和「Data Bias」是一樣的東西嗎?

答案

資料偏差是更廣的概念,包含抽樣偏差(採集的資料不代表真實分布)、測量偏差(測量工具本身有誤差)等。標籤偏差特指在「標注」這個步驟中引入的偏差,原因是標注者的主觀偏見或不一致。資料偏差是標籤偏差的上位概念,標籤偏差是資料偏差的一種。

變形 2

如何量化標注者之間的一致性?

直覺

5 個人給 1000 份資料貼標籤,怎麼知道他們的判斷有多一致?

答案

常用 Cohen's Kappa(兩位標注者)或 Fleiss' Kappa(三位以上),它們計算的是「超出純粹隨機一致性的一致程度」。Kappa > 0.8 為高度一致,0.6-0.8 為中度,< 0.6 代表標注品質有疑慮,需要重新討論標注規則。

變形 3

模型訓練完後如何偵測它學到了標籤偏差?

直覺

偏差是在資料準備階段引入的,但訓練完的模型要怎麼診斷它是否帶有偏差?

答案

公平性審計(Fairness Audit):對不同子群體(例如不同性別的履歷)分別計算準確率、召回率,找出系統性效能差距。SHAP 或 LIME 等可解釋性工具也能幫助識別模型是否在不應該影響判斷的特徵(如姓名、性別)上賦予了過高的重要性。

變形 4

自動化標注(弱監督學習)能消除標籤偏差嗎?

直覺

如果讓程式自動生成標籤,就不需要人工標注,偏差是不是就消失了?

答案

不一定。自動化標注規則(labeling functions)本身也可能帶有偏見,例如「含有特定關鍵字就標記為負面」,這個規則的設計者可能帶入了主觀預設。偏差從「人工標注者」轉移到「設計規則的工程師」,根本問題並未消失,只是換了形式。

變形 5

AI 公平性和 AI 準確率是同一件事嗎?

直覺

一個準確率很高的模型,是不是就代表它公平、無偏差?

答案

不是。高準確率的模型仍然可能帶有偏差。例如:一個履歷篩選 AI 的整體準確率是 95%,但在女性履歷上的召回率只有 60%(大量漏掉合適的女性應徵者)。這個模型雖然「準確率高」,但對女性群體有系統性偏差,是不公平的。公平性需要單獨對不同子群體評估,不能用整體準確率代替。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 114 年第二梯次 iPAS AI 應用規劃師 中級 科目三 機器學習技術與應用 第 13 題

查看官方原文 PDF