你有沒有想過,為什麼有些人申請信用卡總是被拒,而條件差不多的人卻輕鬆通過?
如果背後是AI在做決定,問題可能出在公平性上。人工智慧公平性就是確保AI系統在做決策時,不會因為種族、性別、年齡等因素,對特定群體產生不合理的歧視。AI學的是歷史資料,如果歷史本身就有偏見,AI就會把偏見放大。
你可以把它想成一個先回答「用途是什麼」的入口,抓住生活場景後,再看技術細節會更容易。
容易混淆
公平性 vs 偏見(Bias) vs 可解釋性(Explainability)
偏見:AI 系統做出不公平決策的「原因」或「表現」,例如訓練資料裡女性工程師樣本太少,導致模型認為女性不適合工程職位。
公平性:為了「解決」或「避免」偏見,所採取的原則、方法和目標。
可解釋性:讓人理解 AI 為什麼做出某個決策,是實現公平性的工具之一,但不等於公平。
最關鍵的區別:偏見是問題,公平性是目標,可解釋性是檢查工具。
記住這句就好
AI 不該因為你是誰而對你不公平,而該看你做了什麼。
實際案例
Amazon 的 AI 招聘工具
Amazon 曾開發一個 AI 招聘系統,用歷史履歷資料訓練模型來篩選求職者。結果發現模型對女性求職者系統性扣分,因為過去十年大部分被錄取的都是男性。Amazon 最終廢棄了這個系統,這個案例成為 AI 公平性討論的經典反面教材。
美國刑事司法的 COMPAS 系統
美國法院使用 COMPAS 演算法預測被告的再犯風險。ProPublica 的調查發現,這個系統對黑人被告的誤判率(把低風險標為高風險)是白人的兩倍。同樣的犯罪紀錄,不同膚色得到不同的風險分數,直接影響量刑和假釋決定。
深入了解
確保 AI 公平性的三個階段
階段 做什麼 關鍵考量 資料階段(Pre-processing) 檢查訓練資料是否有群體代表性偏差,重新採樣或加權 不同群體的樣本數量要均衡,敏感屬性的分佈要合理 模型階段(In-processing) 在訓練過程中加入公平性約束或使用公平損失函數 公平性和準確率之間往往有取捨,需要找到平衡點 輸出階段(Post-processing) 調整模型輸出以滿足公平性標準 可以設定不同群體的通過率門檻,但可能降低整體準確率 公平性的多種定義
公平性沒有單一定義,常見的有「統計均等」(各群體通過率相同)、「機會均等」(各群體真正合格者的通過率相同)和「個體公平」(相似的人得到相似的結果)。這些定義之間可能互相矛盾,不可能同時滿足所有定義。
情境判斷
Q1(直覺題): 一家銀行的貸款審核 AI 對男性和女性的批准率分別是 60% 和 40%。這代表系統一定不公平嗎?
→ 不一定。批准率的差異可能反映的是兩個群體在收入、信用歷史等合理因素上的實際差異,而非歧視。判斷公平性需要看「在相同條件下」是否有差別待遇,而不是只看整體比率。
Q2(判斷題): 你發現公司的 AI 面試篩選系統對某個族群的通過率偏低。你應該直接調高該族群的通過率來達到「統計均等」,還是先調查原因?
→ 先調查原因。直接調整通過率是治標不治本,可能掩蓋了更深層的問題(例如訓練資料偏差或特徵選擇不當)。而且強制調整可能讓不合格的人通過或合格的人被拒,反而造成新的不公平。正確做法是先找到偏差來源,從資料或模型層面修正。
常見問題
AI 公平性和人類偏見相比,哪個問題更嚴重?
兩者嚴重程度不同。人類偏見是個案式的,每個面試官的偏見不同。AI 偏見是系統性的,一個有偏見的模型會對所有人做出同樣方向的不公平決策,影響規模大得多。但 AI 的好處是偏見可以被量化、被檢測、被修正,人類偏見卻很難被標準化處理。
移除敏感屬性(如性別、種族)就能確保公平嗎?
不能。這叫「盲目公平」,實際上很少有效。因為其他特徵可能間接反映敏感屬性,例如郵遞區號可能和種族高度相關,名字可能暗示性別。模型仍然可以從這些「代理變數」中學到偏見。
有沒有一個「最好的」公平性定義?
沒有。不同的公平性定義適合不同場景,而且數學上已經證明某些公平性定義不能同時滿足。選擇哪種定義取決於應用情境和社會價值判斷,這不是純技術問題,需要利害關係人共同討論決定。
容易混淆
人工智慧公平性 vs AI偏見 AI偏見是問題本身,像資料或模型讓某些群體被系統性低估。 人工智慧公平性是我們要追求的目標,重點是讓結果更公正、更一致。
人工智慧公平性 vs 人工智慧倫理 倫理範圍更大,會談隱私、責任、透明度和安全。 公平性只是其中一塊,專心處理「有沒有不公平對待」這件事。
記住這句就好
公平性不是平均分配,而是避免不合理差別。
實際案例
履歷篩選 公司用模型先過濾候選人,如果某一群人長期被打低分,就要檢查資料和特徵是不是帶偏。
貸款審核 如果兩位條件相近的人,一位總是更容易被拒絕,公平性檢查就要找出差異從哪裡來。
深入了解
公平性常會看群體層級的結果差異,也會看個人層級是否出現明顯不合理。 實務上沒有單一答案,因為不同場景會在準確率、法規要求與社會影響之間做取捨。
情境判斷
Q1: 如果模型對所有人都給出相同分數,這就一定公平嗎?
Q2: 如果某個群體的通過率比較低,就一定代表模型不公平嗎?
常見問題
人工智慧公平性和「完全一致」是一樣嗎?
不是,公平性看的是是否有不合理差別,不是要求每個人得到完全一樣的結果。
公平性一定會降低準確率嗎?
不一定,有些修正能兼顧兩者,但在高風險場景裡,常需要接受部分準確率交換更好的公平性。
怎麼知道模型有沒有公平性問題?
通常會比對不同群體的通過率、錯誤率和召回率,再搭配抽樣審查找出偏差來源。
公平性問題只出現在大型模型嗎?
不是,小模型、規則系統、排序系統都可能出現,只要有資料和決策,就可能產生不公平。