政府開放資料含個資,怎麼處理才合規?
某市政府規劃釋出市民用電資料供學術研究使用,資料內容包含用電紀錄與部分人口統計欄位。考量資料可能涉及可識別個人之資訊,且須符合個人資料保護相關規範,下列哪一種資料處理方式最為適當?
某市政府要把市民的用電記錄開放給學術研究使用。這份資料除了用電數值,還包含部分人口統計欄位,可能讓外人追溯到特定個人。
依照個人資料保護相關規範,政府在釋出前必須選擇適當的資料處理方式,讓研究能進行,同時確保個人隱私不被識別。
問你:在這個情境下,哪一種資料處理方式最符合個資保護規範,又能讓資料供學術使用?
一句話總結
資料含個資要開放研究,正確做法是對有識別風險的欄位做轉換處理並移除直接識別資訊,既保護個人隱私,又保留研究所需的統計規律。
先感受問題:用電資料要開放,但裡面有住址和戶號
新竹市政府的資訊局長林局長,收到多所大學的申請,希望取得市民用電資料,研究用電習慣、分析節電潛力、預測電網負荷。
資料庫裡每一筆記錄包含:戶號、地址、姓名、每月用電度數、家庭人口數、建物類型。
林局長知道這份資料有研究價值,但他也知道:如果直接給出去,研究者可以對照戶號找到哪個地址、哪個家庭的用電習慣,這就違反個資保護法。他要怎麼讓資料「可以研究」又「不能識別個人」?
幾種直覺做法,為什麼不夠好
林局長考慮了幾個直覺方案,一一發現問題:
- 直接給完整資料,簽保密合約:合約只能要求研究者「不濫用」,但無法阻止無意間的識別。萬一資料外洩,合約保不住市民個資。法規要求的是技術上無法識別,不是簽一張紙就好
- 只留數字欄,其他全刪:只留用電度數,刪掉地址、人口數、建物類型,確實沒有個資問題。但研究者想分析「不同家庭規模的用電差異」「老屋和新建築的用電比較」,這些分析需要人口數和建物類型欄位,全刪了研究就做不了
- 加密傳輸:加密只保護「傳輸中的安全」,研究者收到並解密後,裡面還是原始資料,個資問題一點也沒解決
- 個資問題和資料研究價值的衝突:保護太嚴,研究做不了;保護太鬆,違反法規
- 沒有中間地帶:直覺上很難找到「既保護又可用」的平衡點,需要專業的隱私工程技術
去識別化轉換處理,保護又可用
林局長請資訊安全顧問設計了一套去識別化(De-identification)流程,對不同欄位做不同處理:
直接識別欄位,直接移除:姓名、戶號、完整地址(可精確找到某個人的)直接刪除。研究不需要知道是誰,這些欄位沒有學術價值。
間接識別欄位,轉換處理:地址不給到門牌號,只保留「行政區」(例如東區、竹北市);家庭人口數超過 6 人的統一標記為「6人以上」,避免靠極端值反推;用電度數加上隨機雜訊,統計趨勢不變但個別數值無法精確追溯。
處理完後,研究者收到的資料:知道「東區有 N 戶、平均月用電 X 度」,但不知道「三民里 23 號王先生家用電幾度」。
這就是選項 C 講的:對具識別風險的資料欄位進行轉換處理,並移除直接識別資訊。
技術版:去識別化技術在資料治理中的位置
去識別化(De-identification)是資料隱私工程(Privacy Engineering)的核心技術,常見方法包含以下幾種:
假名化(Pseudonymization):用假名或代號取代真實識別符(如姓名換成亂碼 ID)。仍有重新識別的可能性,屬於軟性去識別。
泛化(Generalization):把精確值替換成範圍值(門牌 → 行政區、26歲 → 20-30歲)。保留統計規律但降低精確度。
資料遮罩(Data Masking):把識別欄位用星號或特定符號取代(王小明 → 王**)。通常用於展示,不適合研究分析。
差分隱私(Differential Privacy):在資料查詢結果加入數學可控的雜訊,讓單一個人的資料無法從統計結果反推。Google、Apple 用於使用者行為統計。
在 AI 領域的位置:去識別化是 AI 訓練資料準備階段的合規要求,特別是醫療、金融、政府資料。台灣個資法、歐盟 GDPR、美國 HIPAA 都要求在特定情境下進行去識別化處理。
為什麼出題者考這題:AI 應用規劃師在規劃使用政府或用戶資料時,必須懂得合規的資料處理方式。選錯方式可能導致法律責任,或讓有價值的資料變得無法使用。
為什麼其他選項是錯的
A提供完整資料集並透過合約約定研究用途與保密責任
把原始完整資料給出去,但用合約要求研究者保密、限定用途。
個資保護法規的核心要求是「技術上無法識別個人」,而不是「有合約就好」。合約是行政手段,無法防止資料外洩後的識別風險,也無法阻止研究者無意間使用了個資。提供完整資料在法規上直接違規。
把「法律合約」當成技術保護措施的人,或不了解個資法規的核心精神是「技術去識別」而非「行政約束」的人。
B僅保留用電數值資料,移除所有其他欄位以避免識別風險
只留最純粹的數字,把人口統計等所有相關欄位全部刪除。
這個方式個資保護沒問題,但研究價值被破壞了。移除了人口統計欄位,研究者無法分析「哪種家庭規模用電最多」「哪個年齡層最省電」。題目明確說資料是「供學術研究使用」,過度清除讓資料失去研究意義,違背了釋出資料的初衷。
只想到「安全第一」、沒有兼顧「資料可用性」的人。正確的做法是「在保護和可用之間找平衡」,不是選擇其中一端。
D僅將資料加密後提供,確保資料在傳輸過程中的安全性
加密資料傳給研究者,防止傳輸過程中被竊取。
加密只保護「傳輸中的安全性」,研究者收到後解密,裡面還是完整的原始個資,完全沒有解決識別風險。加密和去識別化是兩件不同的事:加密是傳輸安全;去識別化是資料本身無法識別個人。題目問的是去識別化問題,加密是答非所問。
混淆「資料傳輸安全」和「個人隱私保護」的人。加密是 IT 安全的工具,不是個資保護的充分條件。
同個考點下次怎麼變形
醫院要把病歷資料提供給 AI 研究團隊訓練模型,應如何處理?
醫療資料是更敏感的個資,但 AI 醫療研究又非常需要這些資料。
與本題相同原則:移除姓名、身分證號、出生年月日等直接識別欄位;對年齡泛化成年齡區間、地址只留縣市;保留診斷代碼、檢查數值等研究所需的醫療內容。台灣健保資料庫的開放就是採用這種去識別化後的「次級資料」方式,讓研究可進行但個人無法被識別。
去識別化和匿名化(Anonymization)有什麼差別?
兩個詞聽起來很像,但法規對兩者的要求不同。
去識別化是移除或轉換識別符,理論上在特定條件下仍有可能重新識別(re-identification)。匿名化是完全無法重新識別,是更嚴格的標準。歐盟 GDPR 對「真正匿名化」的資料不適用個資法規;去識別化資料仍受部分規範約束。實務上完全匿名化很難達到,多數情況是去識別化。
什麼是「重新識別(Re-identification)」風險?
資料已經去識別化了,還有風險嗎?
重新識別是指:把去識別化的資料跟其他公開資料(例如選舉名冊、社群媒體、電話簿)結合,推斷出原本的個人身份。例如一筆去識別化的健康資料寫「42歲男性,住大安區,稀有疾病X」,跟大安區的人口資料一比對,可能就找到是誰了。去識別化時要考慮「間接識別」的組合風險,不是只移除姓名就夠了。
差分隱私(Differential Privacy)在政府資料開放上有何優勢?
比去識別化更嚴格的技術,適合什麼場景?
差分隱私在統計查詢結果加入數學可控的雜訊,保證「加入或移除某一個人的資料,查詢結果幾乎不變」。這讓外部研究者無法透過大量查詢反推單一個人的資訊。優勢是有嚴格的數學隱私保證,缺點是加入雜訊會降低資料精確度。適合大規模統計查詢,但不適合需要精確個別記錄的研究。
個資保護法規(如台灣個資法)對 AI 訓練資料有哪些基本要求?
法規的基本要求,考試可能直接考。
主要有三條:一、目的限制(蒐集個資只能用於特定目的,不能拿來訓練無關的 AI 模型);二、最小化原則(只蒐集必要的資料,不需要的欄位不要保留);三、去識別化要求(用於研究或 AI 訓練前,應進行適當的去識別化處理)。違反這些要求可能面臨行政罰鍰和民事賠償。
想再往下看,這 5 個
- 差分隱私(Differential Privacy)透過加入數學可控雜訊保護隱私,比去識別化提供更嚴格的數學保證,是學術開放資料的進階防護技術
- 資料隱私(Data Privacy)規範個人資料蒐集、處理、利用的原則體系,是政府開放資料前必須評估的合規框架
- 歐盟通用資料保護規範(General Data Protection Regulation)全球影響最廣的個資保護法規,確立資料最小化、目的限制等原則,是台灣個資法修法參考標準
- 資料前處理(Data Preprocessing)AI 訓練前對原始資料的清理與轉換,去識別化是其中的隱私保護步驟,缺少則無法合規利用個資
- 成員推斷攻擊(Membership Inference Attack)推測特定樣本是否曾出現在訓練資料中的攻擊手法,去識別化不完整時的主要風險之一