iPAS AI 應用規劃師初級　科目二　生成式 AI 應用與規劃

從資料層降低敏感資訊暴露，哪種做法最合理？

原題 39

某企業規劃導入生成式 AI 客服系統，需處理顧客查詢並引用歷史交易資料。法遵部門在風險評估中指出，系統若不當處理顧客個人資料，可能引發合規與法律責任。若專案初期希望從資料層面降低敏感資訊暴露風險，下列敘述何者最為合理？

白話

一家企業要導入生成式 AI 客服系統，需要讓 AI 引用顧客的歷史交易資料。法遵部門擔心顧客個資被不當處理，引發合規風險。

題目特別限定：要從「資料層面」入手降低敏感資訊的暴露風險，也就是在資料進入 AI 系統之前，從資料本身來處理。

問你：從資料層面降低敏感資訊暴露風險，哪種做法最合理？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

從資料層降低個資暴露風險，最根本的做法是在資料進入 AI 系統之前就做「最小化」和「去識別化」：只給 AI 它需要的欄位（最小必要原則），以及把能識別個人的欄位做去識別化處理，讓 AI 從根源就看不到敏感個資。

02　情境

先感受問題：AI 客服需要歷史交易資料，但個資風險怎麼控？

「全信金融」的法遵長惠文，在 AI 客服系統的導入評估會議上提出警示：「我們的客服 AI 要讀歷史交易紀錄，幫客戶查詢問題。但歷史交易資料裡有客戶姓名、身分證字號、信用卡後四碼、消費金額、地址……萬一模型學到這些資料、然後在回覆裡不小心提到，或者被人誘導說出來，我們會有嚴重的合規問題。」

專案初期的目標是：在不打掉整個計畫的前提下，從「資料層面」先降低風險。

「資料層面」的意思：不是加輸出過濾（那是模型輸出端的防護），不是加存取控制（那是系統層的防護），而是從「給 AI 的資料本身」入手，讓 AI 一開始就接觸不到那麼多敏感資訊。

03　對照

不同層次的防護，各自解決什麼、有什麼局限？

輸出端過濾（事後補救）：在模型生成回覆後，掃描輸出內容、遮罩可疑字串。問題是：模型已經「看過」這些資料，萬一輸出過濾有漏洞，個資已經被模型記憶，風險沒有從根源消除
存取端控制（限制誰能看）：設定哪些 AI 角色能存取哪些資料類型。問題是：能存取的部分仍然完整，模型還是看到完整的敏感欄位，只是限制了「哪個 AI agent 能問」
加密儲存（保護靜態資料）：資料存儲時加密。問題是：AI 模型在推論時需要解密後讀取，使用過程中資料還是以明文形式進入模型，加密只保護「存放時」的安全
資料層最小化 + 去識別化（從根源消除）：只給 AI 它需要的欄位，身份識別欄位做去識別化（如姓名換成客戶代碼、信用卡只保留消費金額），AI 從一開始就接觸不到完整個資
核心原則：越早在資料流程中消除敏感資訊，風險越低。「不給它看」比「給它看了再過濾」更安全

04　解法

最小化 + 去識別化怎麼做

資料欄位最小化（Data Minimization）：評估 AI 客服實際需要什麼資訊才能回答客戶的問題。客戶問「我上個月消費多少」，AI 需要的是「消費金額」和「日期」，不需要「客戶姓名」「地址」「身分證字號」。只把必要欄位給 AI，其他欄位從資料集中移除。

去識別化（De-identification）：對 AI 需要用到但涉及個人識別的欄位，做去識別化處理。例如：

客戶姓名「陳小明」→ 替換成客戶代碼「C-00234」
信用卡號碼 → 只保留後四碼，前面遮罩
生日「1990-03-15」→ 替換成年齡區間「30-35 歲」

這樣 AI 能完成客服任務（用客戶代碼識別誰是誰、用消費金額回答問題），但即使模型在回覆中提到這些資訊，也不會暴露可識別個人身份的敏感資料。

這就是選項 D 描述的：僅提供必要資料欄位與去識別化策略，減少模型接觸可識別個資。

技術版：資料隱私保護的多層防護架構

AI 系統的個資保護不是靠單一機制，而是多層防護。了解各層的功能有助於規劃完整的風險控制：

資料層（Data Layer）：在資料進入 AI 系統前處理，包含欄位最小化（只傳必要欄位）、去識別化（移除直接識別符）、假名化（Pseudonymization，用代碼替換身份）、資料遮罩（Masking）
存取控制層（Access Control Layer）：定義哪些 AI 元件或角色能存取哪些資料，透過 IAM 和角色權限管理實現
傳輸層（Transmission Layer）：資料在系統間傳輸時的加密保護（TLS/HTTPS）
儲存層（Storage Layer）：資料靜態存儲時的加密（Encryption at Rest）
輸出層（Output Layer）：模型回覆的後處理，掃描和遮罩可能的敏感資訊洩露

「資料層」防護的特殊優先性：題目問的是「從資料層面降低風險」，這對應的是最早在流程中的防護，也是最根本的防護。「資料最小化」和「去識別化」是 GDPR 等個資法規明確要求的原則，不只是工程選擇，也是法遵義務。

為什麼出題者要考這題：AI 規劃師在規劃涉及個資的 AI 系統時，必須能識別各種防護手段的層次和局限，並能說明「從根源（資料層）」控制風險的重要性。

05　陷阱

為什麼其他選項是錯的

A強化模型輸出端查看與遮罩機制，以過濾可能出現的敏感資訊

字面在說什麼

在模型產生回覆後，用掃描和遮罩機制把敏感資訊從輸出中過濾掉。

為什麼不對

A 是「輸出端」的防護，不是「資料層」的防護。題目明確說要從資料層面入手。輸出端過濾是在模型已經看過完整個資之後才補救，屬於事後防護；而且輸出過濾可能有漏洞（模型以迂迴方式提及），不如從根源就不讓模型接觸敏感資料。

誰會選錯

以為「過濾輸出」就等於保護個資的人，或者沒有仔細讀「從資料層面」這個限定條件的人。

B設定 AI 回覆範圍與角色權限，限制其存取特定類型資料

字面在說什麼

透過存取控制機制，設定哪些 AI 角色能看哪些資料類型，限制存取範圍。

為什麼不對

B 是「存取控制層」的防護，不是「資料層」的防護。存取控制決定「誰能看到什麼資料」，但被允許存取的資料本身仍然是完整的（含敏感欄位），並沒有從資料本身消除風險。題目問的是從資料本身入手。

誰會選錯

把「存取控制」和「資料層保護」混淆的人。存取控制是架構層的防護，資料最小化是資料本身的防護，兩者層次不同。

C將資料集中於加密儲存環境，並加強系統存取控管

字面在說什麼

把資料存在加密的環境裡，並控管誰能進入這個環境取用資料。

為什麼不對

C 說的是「儲存層」和「存取控制層」的防護，都不是「資料層」的防護。加密儲存保護「資料靜置時的安全」，AI 推論時資料需要解密，進入模型的還是明文敏感資料。加強存取控管是限制「誰能拿到資料」，但資料本身的敏感欄位沒有被處理。

誰會選錯

把「資料安全」廣泛地等同於「加密 + 存取控制」的人，沒有意識到「從資料層降低風險」指的是「資料本身的去敏感化處理」。

06　變形

同個考點下次怎麼變形

變形 1

去識別化（De-identification）和匿名化（Anonymization）的差別是什麼？

直覺

兩個聽起來都是「讓人認不出來」，有什麼區別？

答案

去識別化是移除或替換直接識別符（姓名、身分證號），但理論上透過間接識別符（出生日期 + 郵遞區號 + 性別）仍可能重新識別；匿名化是不可逆地切斷所有識別連結，無法重新識別到個人。匿名化保護程度更高，但也可能降低資料可用性。GDPR 對兩者的規範要求不同。

變形 2

資料最小化原則（Data Minimization）是什麼？它來自哪個法規框架？

直覺

只給必要欄位是工程選擇，還是有法規要求？

答案

資料最小化是 GDPR（歐盟通用資料保護規則）第五條的明確要求：收集和處理的個資應限於「目的所必要者」。台灣的個人資料保護法也有類似精神。AI 系統在設計時應評估「這個任務實際需要哪些欄位」，不應預設地把所有資料都給 AI，這不只是工程最佳實踐，也是法規遵從義務。

變形 3

AI 客服系統在使用個資時，還需要注意哪些台灣個人資料保護法的要求？

直覺

除了技術上的去識別化，法規面還要做什麼？

答案

台灣個資法主要要求：蒐集個資應有特定目的並取得當事人同意（或符合法定免同意事由）、使用個資應在原蒐集目的範圍內、當事人有查詢、更正、刪除的請求權、資料外洩需通知當事人及主管機關。AI 系統如果用歷史交易資料訓練或推論，必須確認原始同意範圍涵蓋 AI 用途。

變形 4

如果去識別化後的資料 AI 仍無法準確回答問題，應如何取捨？

直覺

去識別化後資料不完整，準確率下降，要不要就不去識別化？

答案

這是資料可用性（Utility）和隱私保護（Privacy）之間的取捨，是 AI 規劃師的核心判斷。通常的處理方式：先評估哪些欄位是去識別化後仍能保留功能的（如將姓名換代碼，客服 AI 仍能回答消費問題）；對真的影響功能的欄位，評估是否有法規許可的使用依據（如依合約），或縮小 AI 的服務範圍來降低需要個資的場景。

變形 5

為什麼「加密儲存」不能替代「去識別化」作為資料層防護？

直覺

加密不是很安全嗎？為什麼不夠用？

答案

加密保護「資料靜置時的安全」（讓外部攻擊者無法讀到）。但 AI 模型推論時必須解密後讀取資料，使用過程中資料以明文進入模型，加密沒有防護這個階段。去識別化是把資料本身變成「即使被模型讀到也無法識別個人」的形式，防護的是資料被 AI 使用的過程中的風險，兩者防護的威脅不同。

07　延伸

想再往下看，這 5 個

資料隱私（Data Privacy）保護個人資料不被未授權存取或洩漏的原則，本題從資料層降低暴露風險正是資料隱私設計的核心實踐
差分隱私（Differential Privacy）在資料或模型輸出中加入數學噪音保護個體隱私的技術，與去識別化同屬「資料層」的隱私保護手段
資料前處理（Data Preprocessing）資料進入模型前的清洗與轉換階段，去識別化和欄位最小化都在此階段執行，是本題「資料層面入手」的具體環節
歐盟通用資料保護規範（General Data Protection Regulation）明確規定資料最小化為法定義務的國際個資法規，台灣個資法與其精神相近，是本題去識別化策略的法規背景
聯邦學習（Federated Learning）讓資料留在各端不集中傳輸的隱私保護訓練方式，與本題「資料最小化 + 去識別化」同屬降低個資暴露的不同技術路線