iPAS AI 應用規劃師 初級 科目二 生成式 AI 應用與規劃

從資料層降低敏感資訊暴露,哪種做法最合理?

原題 39

某企業規劃導入生成式 AI 客服系統,需處理顧客查詢並引用歷史交易資料。法遵部門在風險評估中指出,系統若不當處理顧客個人資料,可能引發合規與法律責任。若專案初期希望從資料層面降低敏感資訊暴露風險,下列敘述何者最為合理?

白話

一家企業要導入生成式 AI 客服系統,需要讓 AI 引用顧客的歷史交易資料。法遵部門擔心顧客個資被不當處理,引發合規風險。

題目特別限定:要從「資料層面」入手降低敏感資訊的暴露風險,也就是在資料進入 AI 系統之前,從資料本身來處理。

問你:從資料層面降低敏感資訊暴露風險,哪種做法最合理?

點選你的答案。

01 總結

一句話總結

從資料層降低個資暴露風險,最根本的做法是在資料進入 AI 系統之前就做「最小化」和「去識別化」:只給 AI 它需要的欄位(最小必要原則),以及把能識別個人的欄位做去識別化處理,讓 AI 從根源就看不到敏感個資

02 情境

先感受問題:AI 客服需要歷史交易資料,但個資風險怎麼控?

「全信金融」的法遵長惠文,在 AI 客服系統的導入評估會議上提出警示:「我們的客服 AI 要讀歷史交易紀錄,幫客戶查詢問題。但歷史交易資料裡有客戶姓名、身分證字號、信用卡後四碼、消費金額、地址……萬一模型學到這些資料、然後在回覆裡不小心提到,或者被人誘導說出來,我們會有嚴重的合規問題。」

專案初期的目標是:在不打掉整個計畫的前提下,從「資料層面」先降低風險。

「資料層面」的意思:不是加輸出過濾(那是模型輸出端的防護),不是加存取控制(那是系統層的防護),而是從「給 AI 的資料本身」入手,讓 AI 一開始就接觸不到那麼多敏感資訊。

03 對照

不同層次的防護,各自解決什麼、有什麼局限?

  1. 輸出端過濾(事後補救):在模型生成回覆後,掃描輸出內容、遮罩可疑字串。問題是:模型已經「看過」這些資料,萬一輸出過濾有漏洞,個資已經被模型記憶,風險沒有從根源消除
  2. 存取端控制(限制誰能看):設定哪些 AI 角色能存取哪些資料類型。問題是:能存取的部分仍然完整,模型還是看到完整的敏感欄位,只是限制了「哪個 AI agent 能問」
  3. 加密儲存(保護靜態資料):資料存儲時加密。問題是:AI 模型在推論時需要解密後讀取,使用過程中資料還是以明文形式進入模型,加密只保護「存放時」的安全
  4. 資料層最小化 + 去識別化(從根源消除):只給 AI 它需要的欄位,身份識別欄位做去識別化(如姓名換成客戶代碼、信用卡只保留消費金額),AI 從一開始就接觸不到完整個資
  5. 核心原則:越早在資料流程中消除敏感資訊,風險越低。「不給它看」比「給它看了再過濾」更安全
04 解法

最小化 + 去識別化怎麼做

資料欄位最小化(Data Minimization):評估 AI 客服實際需要什麼資訊才能回答客戶的問題。客戶問「我上個月消費多少」,AI 需要的是「消費金額」和「日期」,不需要「客戶姓名」「地址」「身分證字號」。只把必要欄位給 AI,其他欄位從資料集中移除。

去識別化(De-identification):對 AI 需要用到但涉及個人識別的欄位,做去識別化處理。例如:

  • 客戶姓名「陳小明」→ 替換成客戶代碼「C-00234」
  • 信用卡號碼 → 只保留後四碼,前面遮罩
  • 生日「1990-03-15」→ 替換成年齡區間「30-35 歲」

這樣 AI 能完成客服任務(用客戶代碼識別誰是誰、用消費金額回答問題),但即使模型在回覆中提到這些資訊,也不會暴露可識別個人身份的敏感資料。

這就是選項 D 描述的:僅提供必要資料欄位與去識別化策略,減少模型接觸可識別個資

技術版:資料隱私保護的多層防護架構

AI 系統的個資保護不是靠單一機制,而是多層防護。了解各層的功能有助於規劃完整的風險控制:

  • 資料層(Data Layer):在資料進入 AI 系統前處理,包含欄位最小化(只傳必要欄位)、去識別化(移除直接識別符)、假名化(Pseudonymization,用代碼替換身份)、資料遮罩(Masking)
  • 存取控制層(Access Control Layer):定義哪些 AI 元件或角色能存取哪些資料,透過 IAM 和角色權限管理實現
  • 傳輸層(Transmission Layer):資料在系統間傳輸時的加密保護(TLS/HTTPS)
  • 儲存層(Storage Layer):資料靜態存儲時的加密(Encryption at Rest)
  • 輸出層(Output Layer):模型回覆的後處理,掃描和遮罩可能的敏感資訊洩露

「資料層」防護的特殊優先性:題目問的是「從資料層面降低風險」,這對應的是最早在流程中的防護,也是最根本的防護。「資料最小化」和「去識別化」是 GDPR 等個資法規明確要求的原則,不只是工程選擇,也是法遵義務。

為什麼出題者要考這題:AI 規劃師在規劃涉及個資的 AI 系統時,必須能識別各種防護手段的層次和局限,並能說明「從根源(資料層)」控制風險的重要性。

05 陷阱

為什麼其他選項是錯的

A強化模型輸出端查看與遮罩機制,以過濾可能出現的敏感資訊

字面在說什麼

在模型產生回覆後,用掃描和遮罩機制把敏感資訊從輸出中過濾掉。

為什麼不對

A 是「輸出端」的防護,不是「資料層」的防護。題目明確說要從資料層面入手。輸出端過濾是在模型已經看過完整個資之後才補救,屬於事後防護;而且輸出過濾可能有漏洞(模型以迂迴方式提及),不如從根源就不讓模型接觸敏感資料。

誰會選錯

以為「過濾輸出」就等於保護個資的人,或者沒有仔細讀「從資料層面」這個限定條件的人。

B設定 AI 回覆範圍與角色權限,限制其存取特定類型資料

字面在說什麼

透過存取控制機制,設定哪些 AI 角色能看哪些資料類型,限制存取範圍。

為什麼不對

B 是「存取控制層」的防護,不是「資料層」的防護。存取控制決定「誰能看到什麼資料」,但被允許存取的資料本身仍然是完整的(含敏感欄位),並沒有從資料本身消除風險。題目問的是從資料本身入手。

誰會選錯

把「存取控制」和「資料層保護」混淆的人。存取控制是架構層的防護,資料最小化是資料本身的防護,兩者層次不同。

C將資料集中於加密儲存環境,並加強系統存取控管

字面在說什麼

把資料存在加密的環境裡,並控管誰能進入這個環境取用資料。

為什麼不對

C 說的是「儲存層」和「存取控制層」的防護,都不是「資料層」的防護。加密儲存保護「資料靜置時的安全」,AI 推論時資料需要解密,進入模型的還是明文敏感資料。加強存取控管是限制「誰能拿到資料」,但資料本身的敏感欄位沒有被處理。

誰會選錯

把「資料安全」廣泛地等同於「加密 + 存取控制」的人,沒有意識到「從資料層降低風險」指的是「資料本身的去敏感化處理」。

06 變形

同個考點下次怎麼變形

變形 1

去識別化(De-identification)和匿名化(Anonymization)的差別是什麼?

直覺

兩個聽起來都是「讓人認不出來」,有什麼區別?

答案

去識別化是移除或替換直接識別符(姓名、身分證號),但理論上透過間接識別符(出生日期 + 郵遞區號 + 性別)仍可能重新識別;匿名化是不可逆地切斷所有識別連結,無法重新識別到個人。匿名化保護程度更高,但也可能降低資料可用性。GDPR 對兩者的規範要求不同。

變形 2

資料最小化原則(Data Minimization)是什麼?它來自哪個法規框架?

直覺

只給必要欄位是工程選擇,還是有法規要求?

答案

資料最小化是 GDPR(歐盟通用資料保護規則)第五條的明確要求:收集和處理的個資應限於「目的所必要者」。台灣的個人資料保護法也有類似精神。AI 系統在設計時應評估「這個任務實際需要哪些欄位」,不應預設地把所有資料都給 AI,這不只是工程最佳實踐,也是法規遵從義務。

變形 3

AI 客服系統在使用個資時,還需要注意哪些台灣個人資料保護法的要求?

直覺

除了技術上的去識別化,法規面還要做什麼?

答案

台灣個資法主要要求:蒐集個資應有特定目的並取得當事人同意(或符合法定免同意事由)、使用個資應在原蒐集目的範圍內、當事人有查詢、更正、刪除的請求權、資料外洩需通知當事人及主管機關。AI 系統如果用歷史交易資料訓練或推論,必須確認原始同意範圍涵蓋 AI 用途。

變形 4

如果去識別化後的資料 AI 仍無法準確回答問題,應如何取捨?

直覺

去識別化後資料不完整,準確率下降,要不要就不去識別化?

答案

這是資料可用性(Utility)和隱私保護(Privacy)之間的取捨,是 AI 規劃師的核心判斷。通常的處理方式:先評估哪些欄位是去識別化後仍能保留功能的(如將姓名換代碼,客服 AI 仍能回答消費問題);對真的影響功能的欄位,評估是否有法規許可的使用依據(如依合約),或縮小 AI 的服務範圍來降低需要個資的場景。

變形 5

為什麼「加密儲存」不能替代「去識別化」作為資料層防護?

直覺

加密不是很安全嗎?為什麼不夠用?

答案

加密保護「資料靜置時的安全」(讓外部攻擊者無法讀到)。但 AI 模型推論時必須解密後讀取資料,使用過程中資料以明文進入模型,加密沒有防護這個階段。去識別化是把資料本身變成「即使被模型讀到也無法識別個人」的形式,防護的是資料被 AI 使用的過程中的風險,兩者防護的威脅不同。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 115 年第一次 iPAS AI 應用規劃師 初級 科目二 生成式 AI 應用與規劃 第 39 題

查看官方原文 PDF