iPAS AI 應用規劃師 中級 科目三 機器學習技術與應用

同態加密在加密資料上直接運算是什麼意思?

原題 36

某銀行計畫與多家合作機構共同訓練一個 AI 信用風險預測模型,為避免客戶交易資料在傳輸與運算過程中外洩,技術團隊評估使用同態加密(Homomorphic Encryption)技術。下列何者最能正確描述同態加密在此應用中的關鍵特性?

白話

一家銀行要和其他機構合作訓練 AI,但資料不能外洩。他們考慮用同態加密技術來保護資料安全。

問你:同態加密在這個情境中最關鍵的特性是什麼?

點選你的答案。

01 總結

一句話總結

同態加密的關鍵特性是:資料在加密狀態下仍可直接進行數值運算,模型訓練全程不需要解密,平台永遠看不到原始資料

02 情境

先感受問題:資料不能給別人看,但又要讓別人幫你算

「聯信銀行」想和「裕豐銀行」、「合眾信用社」共同訓練一個信用風險 AI,三家機構加起來有數百萬筆客戶資料,合在一起訓練出的模型會比各自單打獨鬥強很多。

但有個問題:

聯信銀行:「我的客戶資料不能給你們看,這是個資,也是競爭機密。」
裕豐銀行:「我也是,法規不允許跨行共享原始交易明細。」
合眾信用社:「那我們怎麼合作訓練模型?」

傳統加密的問題:要運算就要先解密,一旦解密,資料就暴露了。

同態加密的突破:資料「鎖在密文裡」,但可以直接在密文上做加法和乘法,運算結果解密後和「先解密再算」的結果完全一致,訓練過程中平台從頭到尾都看不到原始資料。

03 對照

沒有同態加密,銀行聯合訓練 AI 的困境

  1. 直接傳送原始資料:所有銀行把客戶交易明細傳到中央伺服器,法規明令禁止,資安風險極高,一旦中央伺服器被攻擊,所有機構的客戶資料全部洩露。
  2. 傳統加密後傳輸:加密傳到中央,但運算前必須解密,解密過程中中央伺服器仍然可以看到原始資料,解決不了根本問題。
  3. 各自訓練,交換模型參數:每家銀行在自己的資料上訓練,再把模型梯度或參數共享(類似聯邦學習),但模型參數本身可能洩漏訓練資料的統計特性(梯度反推攻擊)。
  4. 只用聚合統計量:只共享「平均逾期率」等統計數字而非個別交易,無法讓 AI 學到細粒度的風險模式,模型效果差。
  5. 建立受信任的第三方機構:找一個被所有人信任的中立機構保存資料,但「信任」本身就是風險,且法規合規性仍然複雜。
04 解法

同態加密:在密文上直接計算,永遠不需要解密

三家銀行採用同態加密方案:

步驟一:聯信銀行用自己的公鑰把客戶資料加密成密文,傳送給中央訓練平台
步驟二:裕豐銀行、合眾信用社做同樣的事(各自加密,傳送密文)
步驟三:中央訓練平台在「三份密文」上直接執行模型訓練的數值運算(梯度計算等)
步驟四:運算結果(仍是密文)傳回各銀行,各自用私鑰解密,得到最終模型參數

整個過程中,中央訓練平台只碰到密文,從頭到尾看不到任何客戶的真實交易數據。

這就是選項 D 講的:資料在加密狀態下仍可進行數值運算,模型訓練可於未解密資料上完成

技術版:同態加密的加法同態與乘法同態,及其在 ML 訓練中的應用

同態加密(HE)的核心性質:設 Enc(x) 為 x 的密文,若加密方案滿足 Enc(a) + Enc(b) = Enc(a+b)(加法同態),以及 Enc(a) × Enc(b) = Enc(a×b)(乘法同態),則稱為「全同態加密(Fully HE, FHE)」。

應用在 ML 訓練上:神經網路的前向傳播和反向傳播本質是大量的加法和乘法。如果加密方案支持這兩種操作,就可以在密文上完成整個訓練過程。解密後的模型參數,等同於在原始明文資料上訓練的結果。

實際挑戰:全同態加密計算開銷極高(比明文運算慢數千到數萬倍),目前主要用於部分同態加密(只支持加法或乘法),或在安全多方計算(MPC)框架中搭配使用,以實際可行的效能處理 ML 任務。

和差分隱私的差異:差分隱私透過加入隨機雜訊保護統計結果,不保護個別資料的運算過程;同態加密保護的是運算過程本身(計算在密文上進行,不需要解密)。兩者解決的問題不同,可以互補使用。

05 陷阱

為什麼其他選項是錯的

選項 A 隨機雜訊干擾輸出

字面在說什麼:同態加密透過加入隨機雜訊,確保統計結果不洩漏個人資料。

為什麼不對:這描述的是「差分隱私(Differential Privacy)」的機制,不是同態加密。差分隱私在輸出結果中加入校準的隨機雜訊,讓攻擊者無法從統計結果反推個別人的資料。同態加密的機制完全不同:它讓計算在密文空間進行,而非加雜訊。

誰會選錯:把「保護資料的技術」和「同態加密」混淆,記得「雜訊 = 保護隱私」但不清楚這對應的是差分隱私而非同態加密的人。

選項 B 交換私鑰確保模型參數一致

字面在說什麼:各參與機構透過安全通道交換私鑰,讓模型參數能同步。

為什麼不對:私鑰是最機密的資訊,「交換私鑰」本身就是嚴重的安全漏洞,任何安全協議都不應該共享私鑰。同態加密的設計恰恰相反:各方保留自己的私鑰,平台只接觸公鑰加密的密文,私鑰永遠不離開各自機構。

誰會選錯:對公私鑰加密基礎不熟悉,聽到「交換確保一致」覺得是合理操作的人。

選項 C 壓縮並加密以減少資料量

字面在說什麼:同態加密可以同時壓縮資料,讓加密後的資料量更小、運算更快。

為什麼不對:同態加密實際上讓密文「比明文更大」,運算開銷也遠高於普通加密,與「減少資料量和運算時間」完全相反。壓縮是資料儲存和傳輸的技術,和加密是獨立的操作,同態加密不包含壓縮功能。

誰會選錯:望文生義,覺得「壓縮 + 加密 = 兩個功能合一」聽起來很合理,不了解同態加密實際上計算開銷很高的人。

06 變形

同個考點下次怎麼變形

變形 1 邊界

直覺:同態加密能保護所有類型的計算嗎?有沒有限制?

答案:部分同態加密(PHE)只支持加法或乘法其中一種;全同態加密(FHE)支持兩者,但計算開銷極高。神經網路中的非線性激活函數(如 ReLU)較難在同態加密上有效率地實作,這是目前的主要技術挑戰。實際應用通常用多項式近似替代非線性函數,或改用同態友好的架構。

變形 2 反例

直覺:同態加密和聯邦學習(Federated Learning)有什麼差?

答案:聯邦學習讓各機構在本地訓練,只上傳模型梯度(不傳原始資料),但梯度本身可能洩漏訓練資料的資訊(梯度反推攻擊)。同態加密讓運算在加密狀態下進行,即使傳出密文也無法被解讀。兩者可以結合使用:聯邦學習的梯度更新用同態加密保護,提供雙重保障。

變形 3 升級版

直覺:差分隱私和同態加密在保護資料隱私上各自最適合什麼場景?

答案:差分隱私:適合「發布統計結果」的場景(如發布人口普查數據),透過加雜訊讓攻擊者無法從結果反推個別人,但會犧牲部分準確性。同態加密:適合「需要第三方計算但不願暴露原始資料」的場景(如多機構聯合訓練 AI),保護的是計算過程而非輸出結果,不損失準確性但計算開銷高。

變形 4 跨領域

直覺:同態加密在醫療 AI 領域有什麼應用場景?

答案:醫院不願分享病人原始病歷(隱私法規),但想聯合訓練 AI 診斷模型。用同態加密,各醫院把病歷加密後傳給中央 AI 平台,平台在密文上訓練模型,解密後各醫院得到更好的共享模型,整個過程沒有任何一家醫院看到其他醫院的病人資料。

變形 5 評估指標

直覺:採用同態加密的 AI 系統,如何評估安全性是否達到要求?

答案:安全性評估主要看:(1)加密強度(金鑰長度、加密方案的計算安全性);(2)是否能抵抗「誠實但好奇(Honest-but-Curious)」的攻擊者(平台按規則計算但試圖從密文中推導原始資料);(3)是否能抵抗惡意攻擊者(可能偏離協議)。實際部署通常搭配安全多方計算(MPC)和正式安全證明。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 114 年第二梯次 iPAS AI 應用規劃師 中級 科目三 機器學習技術與應用 第 36 題

查看官方原文 PDF