人工智慧公平性（Fairness in AI）是什麼？AI 術語完整說明

你有沒有想過，為什麼有些人申請信用卡總是被拒，而條件差不多的人卻輕鬆通過？

如果背後是AI在做決定，問題可能出在公平性上。人工智慧公平性就是確保AI系統在做決策時，不會因為種族、性別、年齡等因素，對特定群體產生不合理的歧視。AI學的是歷史資料，如果歷史本身就有偏見，AI就會把偏見放大。

你可以把它想成一個先回答「用途是什麼」的入口，抓住生活場景後，再看技術細節會更容易。

容易混淆

公平性 vs 偏見（Bias） vs 可解釋性（Explainability）

偏見：AI 系統做出不公平決策的「原因」或「表現」，例如訓練資料裡女性工程師樣本太少，導致模型認為女性不適合工程職位。

公平性：為了「解決」或「避免」偏見，所採取的原則、方法和目標。

可解釋性：讓人理解 AI 為什麼做出某個決策，是實現公平性的工具之一，但不等於公平。

最關鍵的區別：偏見是問題，公平性是目標，可解釋性是檢查工具。

記住這句就好

AI 不該因為你是誰而對你不公平，而該看你做了什麼。

實際案例

Amazon 的 AI 招聘工具

Amazon 曾開發一個 AI 招聘系統，用歷史履歷資料訓練模型來篩選求職者。結果發現模型對女性求職者系統性扣分，因為過去十年大部分被錄取的都是男性。Amazon 最終廢棄了這個系統，這個案例成為 AI 公平性討論的經典反面教材。

美國刑事司法的 COMPAS 系統

美國法院使用 COMPAS 演算法預測被告的再犯風險。ProPublica 的調查發現，這個系統對黑人被告的誤判率（把低風險標為高風險）是白人的兩倍。同樣的犯罪紀錄，不同膚色得到不同的風險分數，直接影響量刑和假釋決定。

深入了解

確保 AI 公平性的三個階段

階段做什麼關鍵考量

資料階段（Pre-processing）檢查訓練資料是否有群體代表性偏差，重新採樣或加權不同群體的樣本數量要均衡，敏感屬性的分佈要合理

模型階段（In-processing）在訓練過程中加入公平性約束或使用公平損失函數公平性和準確率之間往往有取捨，需要找到平衡點

輸出階段（Post-processing）調整模型輸出以滿足公平性標準可以設定不同群體的通過率門檻，但可能降低整體準確率

公平性的多種定義

公平性沒有單一定義，常見的有「統計均等」（各群體通過率相同）、「機會均等」（各群體真正合格者的通過率相同）和「個體公平」（相似的人得到相似的結果）。這些定義之間可能互相矛盾，不可能同時滿足所有定義。

階段	做什麼	關鍵考量
資料階段（Pre-processing）	檢查訓練資料是否有群體代表性偏差，重新採樣或加權	不同群體的樣本數量要均衡，敏感屬性的分佈要合理
模型階段（In-processing）	在訓練過程中加入公平性約束或使用公平損失函數	公平性和準確率之間往往有取捨，需要找到平衡點
輸出階段（Post-processing）	調整模型輸出以滿足公平性標準	可以設定不同群體的通過率門檻，但可能降低整體準確率

情境判斷

Q1（直覺題）： 一家銀行的貸款審核 AI 對男性和女性的批准率分別是 60% 和 40%。這代表系統一定不公平嗎？

→ 不一定。批准率的差異可能反映的是兩個群體在收入、信用歷史等合理因素上的實際差異，而非歧視。判斷公平性需要看「在相同條件下」是否有差別待遇，而不是只看整體比率。

Q2（判斷題）： 你發現公司的 AI 面試篩選系統對某個族群的通過率偏低。你應該直接調高該族群的通過率來達到「統計均等」，還是先調查原因？

→ 先調查原因。直接調整通過率是治標不治本，可能掩蓋了更深層的問題（例如訓練資料偏差或特徵選擇不當）。而且強制調整可能讓不合格的人通過或合格的人被拒，反而造成新的不公平。正確做法是先找到偏差來源，從資料或模型層面修正。

常見問題

AI 公平性和人類偏見相比，哪個問題更嚴重？

兩者嚴重程度不同。人類偏見是個案式的，每個面試官的偏見不同。AI 偏見是系統性的，一個有偏見的模型會對所有人做出同樣方向的不公平決策，影響規模大得多。但 AI 的好處是偏見可以被量化、被檢測、被修正，人類偏見卻很難被標準化處理。

移除敏感屬性（如性別、種族）就能確保公平嗎？

不能。這叫「盲目公平」，實際上很少有效。因為其他特徵可能間接反映敏感屬性，例如郵遞區號可能和種族高度相關，名字可能暗示性別。模型仍然可以從這些「代理變數」中學到偏見。

有沒有一個「最好的」公平性定義？

沒有。不同的公平性定義適合不同場景，而且數學上已經證明某些公平性定義不能同時滿足。選擇哪種定義取決於應用情境和社會價值判斷，這不是純技術問題，需要利害關係人共同討論決定。

容易混淆

人工智慧公平性 vs AI偏見 AI偏見是問題本身，像資料或模型讓某些群體被系統性低估。人工智慧公平性是我們要追求的目標，重點是讓結果更公正、更一致。

人工智慧公平性 vs 人工智慧倫理 倫理範圍更大，會談隱私、責任、透明度和安全。公平性只是其中一塊，專心處理「有沒有不公平對待」這件事。

記住這句就好

公平性不是平均分配，而是避免不合理差別。

實際案例

履歷篩選 公司用模型先過濾候選人，如果某一群人長期被打低分，就要檢查資料和特徵是不是帶偏。

貸款審核 如果兩位條件相近的人，一位總是更容易被拒絕，公平性檢查就要找出差異從哪裡來。

深入了解

公平性常會看群體層級的結果差異，也會看個人層級是否出現明顯不合理。實務上沒有單一答案，因為不同場景會在準確率、法規要求與社會影響之間做取捨。

情境判斷

Q1： 如果模型對所有人都給出相同分數，這就一定公平嗎？

不一定，因為相同分數不代表用到的資料與判斷過程沒有偏差，還要看結果是否對不同群體造成不合理影響。

Q2： 如果某個群體的通過率比較低，就一定代表模型不公平嗎？

不一定，要看工作職缺、申請條件和真實能力分布，若差異來自合理業務條件，答案可能不同。

常見問題

人工智慧公平性和「完全一致」是一樣嗎？

不是，公平性看的是是否有不合理差別，不是要求每個人得到完全一樣的結果。

公平性一定會降低準確率嗎？

不一定，有些修正能兼顧兩者，但在高風險場景裡，常需要接受部分準確率交換更好的公平性。

怎麼知道模型有沒有公平性問題？

通常會比對不同群體的通過率、錯誤率和召回率，再搭配抽樣審查找出偏差來源。

公平性問題只出現在大型模型嗎？

不是，小模型、規則系統、排序系統都可能出現，只要有資料和決策，就可能產生不公平。

容易混淆

記住這句就好

實際案例

深入了解

情境判斷

常見問題

相關術語

容易混淆

記住這句就好

實際案例

深入了解

情境判斷

常見問題

相關術語

延伸學習

資料來源與參考依據