人工智慧公平性 是什麼?
Fairness in AI — 人工智慧公平性 的完整解釋
人工智慧公平性旨在確保AI系統的決策不會對特定群體或個人產生不合理的歧視,追求結果的公正與平等。
容易混淆
公平性 vs 偏見(Bias) vs 可解釋性(Explainability)
偏見:AI 系統做出不公平決策的「原因」或「表現」,例如訓練資料裡女性工程師樣本太少,導致模型認為女性不適合工程職位。
公平性:為了「解決」或「避免」偏見,所採取的原則、方法和目標。
可解釋性:讓人理解 AI 為什麼做出某個決策,是實現公平性的工具之一,但不等於公平。
最關鍵的區別:偏見是問題,公平性是目標,可解釋性是檢查工具。
記住這句就好
AI 不該因為你是誰而對你不公平,而該看你做了什麼。
實際案例
Amazon 的 AI 招聘工具
Amazon 曾開發一個 AI 招聘系統,用歷史履歷資料訓練模型來篩選求職者。結果發現模型對女性求職者系統性扣分,因為過去十年大部分被錄取的都是男性。Amazon 最終廢棄了這個系統,這個案例成為 AI 公平性討論的經典反面教材。
美國刑事司法的 COMPAS 系統
美國法院使用 COMPAS 演算法預測被告的再犯風險。ProPublica 的調查發現,這個系統對黑人被告的誤判率(把低風險標為高風險)是白人的兩倍。同樣的犯罪紀錄,不同膚色得到不同的風險分數,直接影響量刑和假釋決定。
深入了解
確保 AI 公平性的三個階段
階段 做什麼 關鍵考量 資料階段(Pre-processing) 檢查訓練資料是否有群體代表性偏差,重新採樣或加權 不同群體的樣本數量要均衡,敏感屬性的分佈要合理 模型階段(In-processing) 在訓練過程中加入公平性約束或使用公平損失函數 公平性和準確率之間往往有取捨,需要找到平衡點 輸出階段(Post-processing) 調整模型輸出以滿足公平性標準 可以設定不同群體的通過率門檻,但可能降低整體準確率 公平性的多種定義
公平性沒有單一定義,常見的有「統計均等」(各群體通過率相同)、「機會均等」(各群體真正合格者的通過率相同)和「個體公平」(相似的人得到相似的結果)。這些定義之間可能互相矛盾,不可能同時滿足所有定義。
情境判斷
Q1(直覺題): 一家銀行的貸款審核 AI 對男性和女性的批准率分別是 60% 和 40%。這代表系統一定不公平嗎?
→ 不一定。批准率的差異可能反映的是兩個群體在收入、信用歷史等合理因素上的實際差異,而非歧視。判斷公平性需要看「在相同條件下」是否有差別待遇,而不是只看整體比率。
Q2(判斷題): 你發現公司的 AI 面試篩選系統對某個族群的通過率偏低。你應該直接調高該族群的通過率來達到「統計均等」,還是先調查原因?
→ 先調查原因。直接調整通過率是治標不治本,可能掩蓋了更深層的問題(例如訓練資料偏差或特徵選擇不當)。而且強制調整可能讓不合格的人通過或合格的人被拒,反而造成新的不公平。正確做法是先找到偏差來源,從資料或模型層面修正。
相關術語
常見問題
AI 公平性和人類偏見相比,哪個問題更嚴重?
兩者嚴重程度不同。人類偏見是個案式的,每個面試官的偏見不同。AI 偏見是系統性的,一個有偏見的模型會對所有人做出同樣方向的不公平決策,影響規模大得多。但 AI 的好處是偏見可以被量化、被檢測、被修正,人類偏見卻很難被標準化處理。
移除敏感屬性(如性別、種族)就能確保公平嗎?
不能。這叫「盲目公平」,實際上很少有效。因為其他特徵可能間接反映敏感屬性,例如郵遞區號可能和種族高度相關,名字可能暗示性別。模型仍然可以從這些「代理變數」中學到偏見。
有沒有一個「最好的」公平性定義?
沒有。不同的公平性定義適合不同場景,而且數學上已經證明某些公平性定義不能同時滿足。選擇哪種定義取決於應用情境和社會價值判斷,這不是純技術問題,需要利害關係人共同討論決定。