差分隱私(Differential Privacy)是什麼?

差分隱私是一種資料匿名化技術,透過在統計查詢結果中注入隨機噪音,在公開資料的同時保護個別資料點的隱私。|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

差分隱私(Differential Privacy)是什麼? iPAS AI倫理與治理資料處理

你想分享資料趨勢,又不想暴露某個人的資訊嗎? 你可以把 差分隱私 想成一層保護個人資料的統計濾網。 它其實就是在結果裡加一點可控雜訊,讓整體趨勢可用、單一個體不容易被反推出來。 差分隱私是一種資料匿名化技術,透過在統計查詢結果中注入隨機噪音,在公開資料的同時保護個別資料點的隱私。這在公開報表、模型訓練、跨部門資料分析時都很重要。

容易混淆

vs 資料匿名化 資料匿名化像把人的名字塗掉,但其他資訊可能還是能被拼湊出來;差分隱私則像在公布答案時,故意讓答案「有點模糊」,即使你把所有公開資訊都拿去分析,也無法確定某個人的真實資料。

公平性 vs 聯邦學習 公平性 比較像同一類問題裡的近鄰參考,聯邦學習 則更像把資料或結構往更深一層整理,兩者的用法不一樣。

最關鍵的區別: 先看它是在做「理解、生成、分組、保護」哪一件事,再看細節。

記住這句就好

保護的是個體,公開的是統計結果

實際案例

案例一:差分隱私 發布交通統計 政府想公布某區域平均通勤時間,但又不希望任何單一居民的資料被逆推出來,差分隱私就能派上用場。

案例二:差分隱私 訓練使用者模型 在模型更新時加入受控噪聲,可以降低訓練資料被記住或被反推的風險。

深入了解

差分隱私的核心是,單一資料點加入或移除後,輸出不應有明顯差異 隱私預算越小,保護越強,但可用性也會跟著受影響 實務上常見作法是對查詢結果或梯度加噪,再控制整體預算

差分隱私 真正重要的,不是名詞本身,而是它幫你解決的是哪一類問題。

情境判斷

Q1(直覺題): 你想公布統計結果,又不想讓別人推回某個人的資料,可以怎麼想? → 用差分隱私的思路,讓結果保留整體趨勢、但模糊個體貢獻。

Q2(判斷題): 隱私預算越小越好嗎? → 看情況,因為 ε 越小保護越強,但結果可用性也會下降,實務上要在隱私和準確度之間取平衡。

iPAS 考題

Q:差分隱私的隱私預算 ε 代表什麼? ε 越小,表示加入或移除單一資料點後,輸出變化越小,個體越難被推回來,但結果也會更不精準。

Q:差分隱私在考題裡常怎麼問? 常考的是隱私和可用性的取捨、ε 的意義、以及它和一般匿名化的差別。

常見問題

差分隱私中的隱私預算(ε)是什麼意思?

隱私預算(ε)是衡量差分隱私保護程度的關鍵參數。ε 值越小,隱私保護程度越高,但同時查詢結果的準確性也會受到影響。ε 值代表了攻擊者可以從查詢結果中獲取多少關於個別資料的資訊,因此需要謹慎設定。通常,ε 的取值範圍在 0.1 到 10 之間,具體取決於應用場景和隱私保護需求。

差分隱私如何應用於機器學習模型的訓練?

差分隱私可以通過多種方式應用於機器學習模型的訓練,例如添加噪音到梯度、限制梯度的大小、或者使用差分隱私版本的優化演算法。這些方法旨在保護訓練數據的隱私,防止模型洩露訓練數據中的敏感資訊。例如,差分隱私隨機梯度下降(DP-SGD)是一種常用的方法,它通過添加噪音到每個批次的梯度來實現差分隱私。

差分隱私在實務應用中面臨哪些挑戰?

差分隱私在實務應用中面臨多個挑戰,包括準確性損失、隱私預算分配、複雜性、以及可解釋性。添加噪音會降低查詢結果或模型的準確性,需要在隱私保護和準確性之間進行權衡。此外,隱私預算需要在不同的查詢或模型訓練步驟之間進行合理分配,以確保整體的隱私保護效果。實施差分隱私需要專業知識和技能,並且可能影響模型的可解釋性。

範例考題

某市政府規劃釋出市民用電資料供學術研究使用,資料內容包含用電紀錄與部分人口統計欄位。考量資料可能涉及可識別個人之資訊,且須符合個人資料保護相關規範,下列哪一種資料處理方式最為適當?

  • A. 提供完整資料集並透過合約約定研究用途與保密責任
  • B. 僅保留用電數值資料,移除所有其他欄位以避免識別風險
  • C. 對具識別風險的資料欄位進行轉換處理,並移除直接識別資訊 ✓ 正確答案
  • D. 僅將資料加密後提供,確保資料在傳輸過程中的安全性

解析:

為符合個資保護規範,應對具識別風險的欄位進行去識別化轉換處理(如 k-匿名化、差分隱私等),並移除可直接識別個人的資訊。這樣既能保護隱私又能保留資料的研究價值。

立即測驗

想測試你對 差分隱私 的掌握程度? 開始模擬考