同態加密在加密資料上直接運算是什麼意思?
某銀行計畫與多家合作機構共同訓練一個 AI 信用風險預測模型,為避免客戶交易資料在傳輸與運算過程中外洩,技術團隊評估使用同態加密(Homomorphic Encryption)技術。下列何者最能正確描述同態加密在此應用中的關鍵特性?
一家銀行要和其他機構合作訓練 AI,但資料不能外洩。他們考慮用同態加密技術來保護資料安全。
問你:同態加密在這個情境中最關鍵的特性是什麼?
一句話總結
同態加密的關鍵特性是:資料在加密狀態下仍可直接進行數值運算,模型訓練全程不需要解密,平台永遠看不到原始資料。
先感受問題:資料不能給別人看,但又要讓別人幫你算
「聯信銀行」想和「裕豐銀行」、「合眾信用社」共同訓練一個信用風險 AI,三家機構加起來有數百萬筆客戶資料,合在一起訓練出的模型會比各自單打獨鬥強很多。
但有個問題:
裕豐銀行:「我也是,法規不允許跨行共享原始交易明細。」
合眾信用社:「那我們怎麼合作訓練模型?」
傳統加密的問題:要運算就要先解密,一旦解密,資料就暴露了。
同態加密的突破:資料「鎖在密文裡」,但可以直接在密文上做加法和乘法,運算結果解密後和「先解密再算」的結果完全一致,訓練過程中平台從頭到尾都看不到原始資料。
沒有同態加密,銀行聯合訓練 AI 的困境
- 直接傳送原始資料:所有銀行把客戶交易明細傳到中央伺服器,法規明令禁止,資安風險極高,一旦中央伺服器被攻擊,所有機構的客戶資料全部洩露。
- 傳統加密後傳輸:加密傳到中央,但運算前必須解密,解密過程中中央伺服器仍然可以看到原始資料,解決不了根本問題。
- 各自訓練,交換模型參數:每家銀行在自己的資料上訓練,再把模型梯度或參數共享(類似聯邦學習),但模型參數本身可能洩漏訓練資料的統計特性(梯度反推攻擊)。
- 只用聚合統計量:只共享「平均逾期率」等統計數字而非個別交易,無法讓 AI 學到細粒度的風險模式,模型效果差。
- 建立受信任的第三方機構:找一個被所有人信任的中立機構保存資料,但「信任」本身就是風險,且法規合規性仍然複雜。
同態加密:在密文上直接計算,永遠不需要解密
三家銀行採用同態加密方案:
步驟二:裕豐銀行、合眾信用社做同樣的事(各自加密,傳送密文)
步驟三:中央訓練平台在「三份密文」上直接執行模型訓練的數值運算(梯度計算等)
步驟四:運算結果(仍是密文)傳回各銀行,各自用私鑰解密,得到最終模型參數
整個過程中,中央訓練平台只碰到密文,從頭到尾看不到任何客戶的真實交易數據。
這就是選項 D 講的:資料在加密狀態下仍可進行數值運算,模型訓練可於未解密資料上完成。
技術版:同態加密的加法同態與乘法同態,及其在 ML 訓練中的應用
同態加密(HE)的核心性質:設 Enc(x) 為 x 的密文,若加密方案滿足 Enc(a) + Enc(b) = Enc(a+b)(加法同態),以及 Enc(a) × Enc(b) = Enc(a×b)(乘法同態),則稱為「全同態加密(Fully HE, FHE)」。
應用在 ML 訓練上:神經網路的前向傳播和反向傳播本質是大量的加法和乘法。如果加密方案支持這兩種操作,就可以在密文上完成整個訓練過程。解密後的模型參數,等同於在原始明文資料上訓練的結果。
實際挑戰:全同態加密計算開銷極高(比明文運算慢數千到數萬倍),目前主要用於部分同態加密(只支持加法或乘法),或在安全多方計算(MPC)框架中搭配使用,以實際可行的效能處理 ML 任務。
和差分隱私的差異:差分隱私透過加入隨機雜訊保護統計結果,不保護個別資料的運算過程;同態加密保護的是運算過程本身(計算在密文上進行,不需要解密)。兩者解決的問題不同,可以互補使用。
為什麼其他選項是錯的
字面在說什麼:同態加密透過加入隨機雜訊,確保統計結果不洩漏個人資料。
為什麼不對:這描述的是「差分隱私(Differential Privacy)」的機制,不是同態加密。差分隱私在輸出結果中加入校準的隨機雜訊,讓攻擊者無法從統計結果反推個別人的資料。同態加密的機制完全不同:它讓計算在密文空間進行,而非加雜訊。
誰會選錯:把「保護資料的技術」和「同態加密」混淆,記得「雜訊 = 保護隱私」但不清楚這對應的是差分隱私而非同態加密的人。
字面在說什麼:各參與機構透過安全通道交換私鑰,讓模型參數能同步。
為什麼不對:私鑰是最機密的資訊,「交換私鑰」本身就是嚴重的安全漏洞,任何安全協議都不應該共享私鑰。同態加密的設計恰恰相反:各方保留自己的私鑰,平台只接觸公鑰加密的密文,私鑰永遠不離開各自機構。
誰會選錯:對公私鑰加密基礎不熟悉,聽到「交換確保一致」覺得是合理操作的人。
字面在說什麼:同態加密可以同時壓縮資料,讓加密後的資料量更小、運算更快。
為什麼不對:同態加密實際上讓密文「比明文更大」,運算開銷也遠高於普通加密,與「減少資料量和運算時間」完全相反。壓縮是資料儲存和傳輸的技術,和加密是獨立的操作,同態加密不包含壓縮功能。
誰會選錯:望文生義,覺得「壓縮 + 加密 = 兩個功能合一」聽起來很合理,不了解同態加密實際上計算開銷很高的人。
同個考點下次怎麼變形
直覺:同態加密能保護所有類型的計算嗎?有沒有限制?
答案:部分同態加密(PHE)只支持加法或乘法其中一種;全同態加密(FHE)支持兩者,但計算開銷極高。神經網路中的非線性激活函數(如 ReLU)較難在同態加密上有效率地實作,這是目前的主要技術挑戰。實際應用通常用多項式近似替代非線性函數,或改用同態友好的架構。
直覺:同態加密和聯邦學習(Federated Learning)有什麼差?
答案:聯邦學習讓各機構在本地訓練,只上傳模型梯度(不傳原始資料),但梯度本身可能洩漏訓練資料的資訊(梯度反推攻擊)。同態加密讓運算在加密狀態下進行,即使傳出密文也無法被解讀。兩者可以結合使用:聯邦學習的梯度更新用同態加密保護,提供雙重保障。
直覺:差分隱私和同態加密在保護資料隱私上各自最適合什麼場景?
答案:差分隱私:適合「發布統計結果」的場景(如發布人口普查數據),透過加雜訊讓攻擊者無法從結果反推個別人,但會犧牲部分準確性。同態加密:適合「需要第三方計算但不願暴露原始資料」的場景(如多機構聯合訓練 AI),保護的是計算過程而非輸出結果,不損失準確性但計算開銷高。
直覺:同態加密在醫療 AI 領域有什麼應用場景?
答案:醫院不願分享病人原始病歷(隱私法規),但想聯合訓練 AI 診斷模型。用同態加密,各醫院把病歷加密後傳給中央 AI 平台,平台在密文上訓練模型,解密後各醫院得到更好的共享模型,整個過程沒有任何一家醫院看到其他醫院的病人資料。
直覺:採用同態加密的 AI 系統,如何評估安全性是否達到要求?
答案:安全性評估主要看:(1)加密強度(金鑰長度、加密方案的計算安全性);(2)是否能抵抗「誠實但好奇(Honest-but-Curious)」的攻擊者(平台按規則計算但試圖從密文中推導原始資料);(3)是否能抵抗惡意攻擊者(可能偏離協議)。實際部署通常搭配安全多方計算(MPC)和正式安全證明。
想再往下看,這 5 個
- 同態加密(Homomorphic Encryption)本題核心:允許在加密資料上直接執行數值運算,是隱私保護機器學習的關鍵技術。
- 差分隱私(Differential Privacy)容易和同態加密混淆的另一種隱私技術:透過加雜訊保護統計輸出,而非保護運算過程本身。
- 聯邦學習(Federated Learning)和同態加密解決類似問題的分散式訓練框架,各機構在本地訓練,只共享模型梯度而非原始資料。
- 人工智慧安全(AI Safety)同態加密是 AI 安全的重要工具之一,確保 AI 訓練過程中的資料安全和隱私合規。
- 對抗性穩健(Adversarial Robustness)和隱私保護密切相關的 AI 安全概念,同態加密保護的是資料隱私,對抗性穩健保護的是模型行為穩定性。