iPAS AI 應用規劃師中級　科目二　大數據處理分析與應用

生成式 AI 客服如何保護個資？

原題 32

某電信公司導入生成式 AI 客服系統，利用過去對話紀錄與用戶行為資料訓練語言模型，在資料治理與合規審查過程中，團隊發現模型可能會在回答中生成包含真實姓名、電話或交易資訊的內容。為確保系統符合個資法及生成式 AI 的安全與隱私要求，下列哪一項作法最符合實務可行及法規原則？

白話

一家電信公司用過去客服對話紀錄訓練生成式 AI 客服系統。審查時發現，模型可能在回覆中洩露用戶的真實姓名、電話或交易明細。

問你：要同時符合個資法規和實務可行性，哪一種做法最合理？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

生成式 AI 的個資保護，要從源頭下手：訓練前做資料匿名化（Anonymization）或偽匿名化（Pseudonymization），加上輸出內容稽核機制，才是同時符合個資法與實務的完整方案。

02　情境

先感受問題：AI 客服洩漏了用戶電話

「電通電信」的 AI 客服小組剛完成 beta 測試，卻發現一個嚴重問題：當測試人員問「上個月我的帳單」，AI 有時會生成「您好，陳大明先生，您的電話 0912-345-678 上月費用 1,280 元……」這類回覆，把其他用戶的資訊也帶出來了。

這是典型的「訓練資料記憶洩漏（Memorization Leakage）」問題：語言模型從訓練資料裡「背住」了真實個資，在特定提示下吐出來。

法務部門亮紅燈：這樣的系統違反個資法，上線前必須解決。

03　對照

不做源頭處理，只靠後端防護有什麼問題

模型已記憶，擋不完：語言模型在訓練後就把個資「燒進」了參數，靠輸出過濾每次都要人工審查，漏網機率高，成本極大。
關鍵字過濾容易繞過：只設定「不顯示姓名」，模型用拼音、暗語或間接描述仍可能洩露；攻擊者只需稍微換個問法就能繞過。
強化學習不能根除記憶：用強化學習「懲罰」洩漏行為，是行為層修正，不能消除模型已記住的敏感資訊；且容易過度限制，讓客服回覆失去正常功能。
同態加密不適合 NLP 生成任務：同態加密讓計算在加密域進行，但語言模型需要理解文字語意才能生成，加密後語義完全消失，無法訓練也無法生成有意義回覆。
合規缺口仍在：若訓練資料中仍保有原始個資，即使最後輸出被擋下，資料持有本身就已違規，個資法要求的是「不持有不必要的個人識別資訊」，不只是「不輸出」。

04　解法

源頭匿名化加輸出稽核，雙層防護

電通電信的正確做法分兩層：

第一層（訓練前）：對所有訓練資料做匿名化或偽匿名化處理。把真實姓名換成「用戶_001」，電話換成亂碼，交易金額做模糊化。模型訓練後，參數裡就不含原始個資，洩漏風險從根源消除。

第二層（輸出後）：建立稽核機制，用正則表達式或 NLP 過濾器掃描每次輸出，若偵測到疑似個資格式（11 位數字、email 格式等）就攔截並記錄。

雙層防護才能真正符合個資法「資料最小化（Data Minimization）」原則。

這就是選項 A 講的：在訓練資料前進行資料匿名化（Anonymization）或偽匿名化（Pseudonymization）處理，並建立輸出內容稽核機制。

技術版：匿名化、偽匿名化、同態加密的差異

匿名化（Anonymization）和偽匿名化（Pseudonymization）是個資保護的兩個層級，在 GDPR 和台灣個資法架構下有不同的合規地位。

匿名化：移除所有可識別個人的資訊，且無法還原。例：把「陳大明，0912-345-678」徹底刪除或替換成「用戶A，手機-XXXX」。匿名化後的資料理論上不再受個資法保護，因為已無法識別個人。

偽匿名化：用假名取代真實識別資訊，但對應表保留在安全的另一處。例：用 UUID 取代用戶 ID，真實對應關係只有授權人員能查。偽匿名化仍受個資法管制，因為理論上可還原，但風險大幅降低。

同態加密（Homomorphic Encryption）：讓計算可以在加密資料上進行，結果解密後等同於在原始資料上計算。理論上很美，但對 Transformer 等語言模型的複雜非線性運算而言，目前計算成本極高，不具備實務可行性（2026 年現況）。

差分隱私（Differential Privacy）也是常見方案，在訓練時加入統計雜訊，讓模型無法「背住」個別樣本。Google、Apple 在聯邦學習中廣泛使用，但實作複雜，需要專門工具支援。

05　陷阱

為什麼其他選項是錯的

B改以強化學習微調模型，使模型學習避免產出真實資訊

字面在說什麼

訓練 AI「懲罰洩漏行為」，讓它學會不說個資。

為什麼不對

強化學習是行為層面的調整，無法刪除模型參數中已記憶的個資。就像教一個人「說出別人電話就扣分」，他可能學會不主動說，但電話資訊還是在他腦子裡，換個問法可能還是說出來。源頭沒清，風險依然存在。

誰會選錯

熟悉 RLHF（人類回饋強化學習）的人，誤以為用 RL 就能「訓練掉」不想要的輸出，忽略了記憶洩漏是訓練資料問題，不只是輸出控制問題。

C採用同態加密以加密所有文字輸入，確保模型無法辨識任何個資

字面在說什麼

把輸入全加密，模型就算看到也讀不懂個資。

為什麼不對

語言模型需要理解語意才能回覆，同態加密後文字失去語義，模型根本無法運作。同態加密用在統計計算（如加總、乘法）尚可，但讓 Transformer 在加密空間做自注意力運算，目前計算成本是不可行的（高出明文運算數百萬倍）。

誰會選錯

記住「同態加密可以在加密資料上計算」這個概念，誤以為它能直接套用在 NLP 系統的人。

D僅設定模型回覆時不顯示用戶姓名，即可視為隱私防護完成

字面在說什麼

只要輸出裡沒有名字，就算完成個資保護。

為什麼不對

個資不只是姓名。電話號碼、地址、交易明細、身分證字號全部都是個人識別資訊。只擋姓名，其他照洩。再者，這是「亡羊補牢」的後端策略，訓練資料中個資依然存在，不符合個資法要求的資料最小化原則。

資料隱私（Data Privacy）個資保護的核心概念，規範如何合法收集、使用、保護個人識別資訊。
差分隱私（Differential Privacy）在訓練時加入統計雜訊，防止模型記住個別訓練樣本的隱私保護技術。
同態加密（Homomorphic Encryption）允許在加密資料上直接計算，但對語言模型的語義任務目前不具實務可行性。
聯邦學習（Federated Learning）讓模型訓練在本地進行，不上傳原始資料，是另一種兼顧隱私的 AI 訓練方案。
AI 治理（AI Governance）制定 AI 系統的合規框架與審查機制，確保系統符合法規與倫理要求。