加密狀態下還能做 AI 運算,用什麼技術?
某企業希望利用含敏感資訊的資料進行 AI 模型訓練,但政策要求原始資料不得外洩,且資料可集中於安全環境中處理。同時,企業希望在資料使用過程中,即使資料處於加密狀態,仍能完成模型計算。在此需求下,下列哪一種技術最為適合?
企業希望用含敏感資訊的資料進行 AI 模型訓練,政策要求原始資料不得外洩、可集中在安全環境處理,且在資料使用過程中,即使資料處於加密狀態,仍能完成模型計算。
問你:在資料全程加密、同時仍需完成模型計算的需求下,哪一種技術最為適合?
一句話總結
在「資料集中處理、加密狀態下仍能運算」這個需求組合下,同態加密(Homomorphic Encryption)是唯一符合條件的技術,因為它讓密文直接參與計算、不需解密。
先感受問題:病歷資料能不能拿來訓練 AI?
「仁安醫療」想用旗下十家醫院的病歷資料訓練一個疾病預測模型。資料裡有病患姓名、身份證號、診斷紀錄,全都是高度敏感的個人資料。
醫院的資安長林昭明說了兩個硬性條件:「第一,原始資料不能離開我們的安全資料中心。第二,就算資料在伺服器上,也不能在運算過程中以明文形式暴露,萬一伺服器被入侵也不能洩漏病患資訊。」
如果資料必須先解密才能運算,那「加密保護」等於是假的,因為在解密的那一瞬間就有洩漏風險。林昭明需要的,是一種「鎖著箱子還能在裡面做計算,拿出來的結果也是正確的」技術。這就是同態加密在解決的問題。
傳統加密保護資料的問題
在同態加密出現之前,「仁安醫療」的資料保護方式面臨這些困境:
- 加密 = 不能用:傳統加密只保護「靜止資料」(在硬碟上)和「傳輸中資料」(在網路上),但資料要進模型運算,必須先解密,保護就斷掉了
- 解密視窗就是漏洞:即使環境安全,解密瞬間就是攻擊者的機會視窗,內鬼或入侵者都可能在這時候取得明文
- 資料匿名化不夠:移除姓名、身份證後,資料可能仍透過「年齡 + 住址 + 罕見病史」的組合被重新識別出來,稱為再識別攻擊
- 聯邦學習無法集中算:聯邦學習讓資料留在各醫院各自訓練,但仁安醫療希望集中在一個安全資料中心統一處理,這兩個需求互相矛盾
- 零知識證明不做運算:零知識證明可以證明「我知道某個答案」但不透露答案本身,是驗證工具,不是計算工具,無法完成模型訓練
每個方案都在某個關鍵點卡住:要嘛不能集中,要嘛必須解密,要嘛根本不適用於運算場景。
同態加密怎麼解這個問題
同態加密(Homomorphic Encryption)的核心概念是:對密文做的運算,等同於對明文做同樣的運算,但全程不需要解密。
以「仁安醫療」為例:病歷資料加密後送進模型訓練環境,AI 系統對密文執行加法、乘法等數學運算,輸出一個仍是加密狀態的結果。最後由授權方解密,得到的結果跟「用明文直接算」完全一樣。整個過程中,明文從來沒有出現。
這樣一來:資料集中在仁安的安全中心(滿足第一個條件),全程保持加密(滿足第二個條件),模型仍然可以完成訓練(不影響功能)。
這就是選項 B 講的:同態加密(Homomorphic Encryption),是唯一同時滿足「集中處理」和「加密狀態下可運算」的技術。
技術版:同態加密在隱私計算(Privacy-Preserving Computing)的位置
同態加密(Homomorphic Encryption, HE)屬於隱私計算(Privacy-Preserving Computation)技術族群,與聯邦學習、安全多方計算(Secure Multi-Party Computation)並列為三大主流方向。
三種隱私計算技術的對比:
- 聯邦學習(Federated Learning):資料不動、模型動。各端各自訓練,只傳梯度更新,資料分散各處不集中
- 同態加密(Homomorphic Encryption):資料集中、但全程加密。可以集中運算,密文直接參與計算,不需解密
- 安全多方計算(MPC):多方合作計算一個結果,各方看不到彼此的原始資料
同態加密的限制(初級不考細節,但要知道概念):運算複雜度極高,比明文運算慢數倍到數百倍,目前主要用於金融、醫療等高度敏感的批次計算,即時推論場景仍受限。
為什麼出題者要考這題:AI 應用規劃師在設計含敏感資料的 AI 系統時,必須知道不同隱私保護技術的適用場景。把聯邦學習和同態加密混淆,會在架構設計階段選錯技術方向,導致系統無法滿足資料合規要求。
為什麼其他選項是錯的
A聯邦學習(Federated Learning)
資料留在各個裝置或機構端,只把模型訓練出的更新(梯度)傳到中央伺服器,資料本身不移動。
聯邦學習的設計前提是「資料分散、不集中傳輸」,但本題明確說「資料可集中於安全環境中處理」。集中處理的需求和聯邦學習的分散架構根本矛盾。而且聯邦學習本身不解決「加密狀態下直接運算」的問題。
聽過「聯邦學習保護隱私」但沒有仔細讀題目「集中處理」這個條件的人。聯邦學習和同態加密都是隱私保護技術,但適用場景完全不同。
C零知識證明(Zero-knowledge Proof)
一方可以向另一方「證明自己知道某個事實」,但不透露任何關於那個事實的額外資訊。
零知識證明是「驗證」工具,不是「運算」工具。它解決的問題是「如何在不洩漏內容的情況下讓別人相信我知道」,完全不能用來對資料做 AI 模型訓練的數學運算。
知道零知識證明和隱私保護有關,就直覺認為它能解決隱私資料的訓練問題的人。「隱私保護」是大範疇,這四個選項都跟隱私有關,差別在具體功能。
D資料匿名化(Data Anonymization)
把資料中能辨識個人的欄位(姓名、身份證號、電話)移除或替換,讓資料無法對應回特定個人。
資料匿名化是「事前處理」,不是加密技術,更不能讓資料在加密狀態下運算。匿名化後資料是明文,而且匿名化有「再識別風險」,多重欄位組合可能重新識別個人,不符合「原始資料不得外洩」的嚴格需求。
把「移除個人識別資訊」等同於「加密保護」的人。匿名化把敏感資訊拿掉,但剩下的資料是明文,沒有加密;同態加密是讓資料全程保持密文狀態。
同個考點下次怎麼變形
聯邦學習和同態加密最主要的差別是什麼?
兩個都說保護隱私,感覺差不多。
核心差別在資料的位置:聯邦學習讓資料分散各端不移動,各端各自訓練模型再彙整;同態加密讓資料集中但全程加密,集中計算時密文直接參與運算。選擇哪個取決於資料能不能集中。
同態加密目前在 AI 應用上的主要限制是什麼?
既然同態加密這麼好,為什麼不是每個 AI 系統的標準配備?
運算成本極高。密文運算比明文運算慢數倍甚至數百倍,因此目前主要用於對安全性要求極高、可接受較長運算時間的場景(如金融風控、醫療分析的批次作業),不適合即時推論場景。
資料匿名化之後還有隱私風險嗎?
名字都刪掉了,怎麼還會有風險?
仍有再識別風險(Re-identification Risk)。移除單一識別欄位後,「年齡 + 職業 + 罕見病史 + 居住地區」的組合仍可能對應到特定個人,尤其在資料集較小或特徵獨特的情況下。因此匿名化不等於零風險,高敏感場景仍需配合其他技術。
哪個場景最適合用聯邦學習而非同態加密?
兩個都保護隱私,應該可以互換?
當資料必須留在各終端、不能集中傳輸時,聯邦學習是正確選擇。典型場景:手機鍵盤預測(每台手機的打字習慣資料不能傳到伺服器)、多家醫院合作訓練模型但各院法規禁止原始資料外流。同態加密適合資料可以集中但必須全程加密的場景。
零知識證明可以應用在 AI 系統的什麼地方?
零知識證明跟 AI 有什麼關係?
零知識證明在 AI 系統中主要用於驗證,而非計算。例如:驗證模型訓練確實使用了合法授權的資料(不洩露訓練集內容)、驗證推論結果由特定模型版本產生(不洩露模型權重)。是合規驗證工具,不是訓練或推論工具。
想再往下看,這 5 個
- 同態加密(Homomorphic Encryption)允許對密文直接進行數學運算且結果解密後與明文運算結果相同,是本題「加密狀態下完成模型計算」需求的唯一對應技術
- 聯邦學習(Federated Learning)讓資料分散各端不集中的隱私保護訓練方式,本題因需集中處理而不適用,與同態加密的核心差異在資料集中與否
- 差分隱私(Differential Privacy)在資料或模型輸出中加入噪音保護個體隱私的技術,與同態加密同屬隱私計算技術族群,但機制與適用場景不同
- 資料隱私(Data Privacy)保護敏感資料不被未授權存取的廣義原則,本題醫療病歷等高敏感資料的 AI 訓練需求,是資料隱私工程的典型挑戰
- 合成數據(Synthetic Data)用演算法生成的模擬資料,可在不使用真實個資的前提下進行 AI 訓練,是同態加密之外的另一種隱私保護訓練替代方案