iPAS AI 應用規劃師初級　科目一　人工智慧基礎概論

政府開放資料含個資，怎麼處理才合規？

原題 35

某市政府規劃釋出市民用電資料供學術研究使用，資料內容包含用電紀錄與部分人口統計欄位。考量資料可能涉及可識別個人之資訊，且須符合個人資料保護相關規範，下列哪一種資料處理方式最為適當？

白話

某市政府要把市民的用電記錄開放給學術研究使用。這份資料除了用電數值，還包含部分人口統計欄位，可能讓外人追溯到特定個人。

依照個人資料保護相關規範，政府在釋出前必須選擇適當的資料處理方式，讓研究能進行，同時確保個人隱私不被識別。

問你：在這個情境下，哪一種資料處理方式最符合個資保護規範，又能讓資料供學術使用？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

資料含個資要開放研究，正確做法是對有識別風險的欄位做轉換處理並移除直接識別資訊，既保護個人隱私，又保留研究所需的統計規律。

02　情境

先感受問題：用電資料要開放，但裡面有住址和戶號

新竹市政府的資訊局長林局長，收到多所大學的申請，希望取得市民用電資料，研究用電習慣、分析節電潛力、預測電網負荷。

資料庫裡每一筆記錄包含：戶號、地址、姓名、每月用電度數、家庭人口數、建物類型。

林局長知道這份資料有研究價值，但他也知道：如果直接給出去，研究者可以對照戶號找到哪個地址、哪個家庭的用電習慣，這就違反個資保護法。他要怎麼讓資料「可以研究」又「不能識別個人」？

03　對照

幾種直覺做法，為什麼不夠好

林局長考慮了幾個直覺方案，一一發現問題：

直接給完整資料，簽保密合約：合約只能要求研究者「不濫用」，但無法阻止無意間的識別。萬一資料外洩，合約保不住市民個資。法規要求的是技術上無法識別，不是簽一張紙就好
只留數字欄，其他全刪：只留用電度數，刪掉地址、人口數、建物類型，確實沒有個資問題。但研究者想分析「不同家庭規模的用電差異」「老屋和新建築的用電比較」，這些分析需要人口數和建物類型欄位，全刪了研究就做不了
加密傳輸：加密只保護「傳輸中的安全」，研究者收到並解密後，裡面還是原始資料，個資問題一點也沒解決
個資問題和資料研究價值的衝突：保護太嚴，研究做不了；保護太鬆，違反法規
沒有中間地帶：直覺上很難找到「既保護又可用」的平衡點，需要專業的隱私工程技術

04　解法

去識別化轉換處理，保護又可用

林局長請資訊安全顧問設計了一套去識別化（De-identification）流程，對不同欄位做不同處理：

直接識別欄位，直接移除：姓名、戶號、完整地址（可精確找到某個人的）直接刪除。研究不需要知道是誰，這些欄位沒有學術價值。

間接識別欄位，轉換處理：地址不給到門牌號，只保留「行政區」（例如東區、竹北市）；家庭人口數超過 6 人的統一標記為「6人以上」，避免靠極端值反推；用電度數加上隨機雜訊，統計趨勢不變但個別數值無法精確追溯。

處理完後，研究者收到的資料：知道「東區有 N 戶、平均月用電 X 度」，但不知道「三民里 23 號王先生家用電幾度」。

這就是選項 C 講的：對具識別風險的資料欄位進行轉換處理，並移除直接識別資訊。

技術版：去識別化技術在資料治理中的位置

去識別化（De-identification）是資料隱私工程（Privacy Engineering）的核心技術，常見方法包含以下幾種：

假名化（Pseudonymization）：用假名或代號取代真實識別符（如姓名換成亂碼 ID）。仍有重新識別的可能性，屬於軟性去識別。

泛化（Generalization）：把精確值替換成範圍值（門牌 → 行政區、26歲 → 20-30歲）。保留統計規律但降低精確度。

資料遮罩（Data Masking）：把識別欄位用星號或特定符號取代（王小明 → 王**）。通常用於展示，不適合研究分析。

差分隱私（Differential Privacy）：在資料查詢結果加入數學可控的雜訊，讓單一個人的資料無法從統計結果反推。Google、Apple 用於使用者行為統計。

在 AI 領域的位置：去識別化是 AI 訓練資料準備階段的合規要求，特別是醫療、金融、政府資料。台灣個資法、歐盟 GDPR、美國 HIPAA 都要求在特定情境下進行去識別化處理。

為什麼出題者考這題：AI 應用規劃師在規劃使用政府或用戶資料時，必須懂得合規的資料處理方式。選錯方式可能導致法律責任，或讓有價值的資料變得無法使用。

05　陷阱

為什麼其他選項是錯的

A提供完整資料集並透過合約約定研究用途與保密責任

字面在說什麼

把原始完整資料給出去，但用合約要求研究者保密、限定用途。

為什麼不對

個資保護法規的核心要求是「技術上無法識別個人」，而不是「有合約就好」。合約是行政手段，無法防止資料外洩後的識別風險，也無法阻止研究者無意間使用了個資。提供完整資料在法規上直接違規。

誰會選錯

把「法律合約」當成技術保護措施的人，或不了解個資法規的核心精神是「技術去識別」而非「行政約束」的人。

B僅保留用電數值資料，移除所有其他欄位以避免識別風險

字面在說什麼

只留最純粹的數字，把人口統計等所有相關欄位全部刪除。

為什麼不對

這個方式個資保護沒問題，但研究價值被破壞了。移除了人口統計欄位，研究者無法分析「哪種家庭規模用電最多」「哪個年齡層最省電」。題目明確說資料是「供學術研究使用」，過度清除讓資料失去研究意義，違背了釋出資料的初衷。

誰會選錯

只想到「安全第一」、沒有兼顧「資料可用性」的人。正確的做法是「在保護和可用之間找平衡」，不是選擇其中一端。

D僅將資料加密後提供，確保資料在傳輸過程中的安全性

字面在說什麼

加密資料傳給研究者，防止傳輸過程中被竊取。

為什麼不對

加密只保護「傳輸中的安全性」，研究者收到後解密，裡面還是完整的原始個資，完全沒有解決識別風險。加密和去識別化是兩件不同的事：加密是傳輸安全；去識別化是資料本身無法識別個人。題目問的是去識別化問題，加密是答非所問。

差分隱私（Differential Privacy）透過加入數學可控雜訊保護隱私，比去識別化提供更嚴格的數學保證，是學術開放資料的進階防護技術
資料隱私（Data Privacy）規範個人資料蒐集、處理、利用的原則體系，是政府開放資料前必須評估的合規框架
歐盟通用資料保護規範（General Data Protection Regulation）全球影響最廣的個資保護法規，確立資料最小化、目的限制等原則，是台灣個資法修法參考標準
資料前處理（Data Preprocessing）AI 訓練前對原始資料的清理與轉換，去識別化是其中的隱私保護步驟，缺少則無法合規利用個資
成員推斷攻擊（Membership Inference Attack）推測特定樣本是否曾出現在訓練資料中的攻擊手法，去識別化不完整時的主要風險之一