對抗性攻擊(Adversarial Attack)是什麼?

對抗性攻擊是指通過對輸入數據進行微小且不易察覺的修改,使AI模型產生錯誤輸出的攻擊方式,用於測試模型的魯棒性。|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

對抗性攻擊(Adversarial Attack)是什麼? 模型評估模型訓練

你有沒有看過那種在停車標誌上貼幾張貼紙,自駕車就把它認成限速標誌的影片?

對抗性攻擊就是透過對輸入資料做微小的、人眼幾乎看不出的修改,讓 AI 模型產生完全錯誤的判斷。這不是隨機加雜訊,而是精心計算過的擾動,專門針對模型的數學弱點下手。一張熊貓的照片加上肉眼不可見的雜訊,模型就會信心滿滿地說那是長臂猿。

這對所有依賴 AI 做決策的系統都是嚴重的安全威脅。

就像先用生活中的例子抓住核心用途,再回頭看名詞和公式,理解會穩很多。

容易混淆

對抗性攻擊 vs 資料投毒 vs 後門攻擊

對抗性攻擊:在推論階段修改輸入資料,讓已訓練好的模型判斷錯誤。

資料投毒:在訓練階段污染訓練資料,讓模型從根本上學歪。

後門攻擊:在訓練時植入隱藏的觸發器,平時正常,特定條件觸發時才出錯。

最關鍵的區別:對抗性攻擊不動模型本身,只動輸入;資料投毒和後門攻擊動的是模型的訓練過程。

記住這句就好

人眼看不出差別,AI 卻判斷完全相反。

實際案例

自駕車交通標誌辨識

研究者在停車標誌上貼了幾張特定位置的小貼紙,人類一看就知道是停車標誌,但自駕車的視覺系統卻把它辨識為限速 45 英里標誌。這種「實體世界」的對抗性攻擊比數位攻擊更危險,因為它能在真實環境中生效。

語音助手劫持

研究者把人耳聽不到的超音波指令嵌入一段正常的音樂中,播放這段音樂時,旁邊的智慧音箱會執行隱藏的指令(如撥打電話、打開網頁)。使用者完全不知道發生了什麼事。

深入了解

常見的對抗性攻擊方法

方法 原理 特點
FGSM(快速梯度符號法) 沿著損失函數梯度的方向加一步擾動 速度快但攻擊力較弱
PGD(投影梯度下降) 多步迭代的 FGSM,每步都限制擾動大小 更強但更慢
C&W 攻擊 把攻擊轉化為最佳化問題,最小化擾動量 攻擊力最強,幾乎不可察覺
黑盒攻擊 不需要知道模型內部結構,只靠輸出結果探測 更接近真實攻擊場景

情境判斷

Q1(直覺題): 你的人臉辨識門禁系統被發現可以用一副特殊花紋的眼鏡騙過。這是對抗性攻擊還是系統 bug?

→ 對抗性攻擊。眼鏡的花紋是精心設計的擾動,專門讓模型把一個人誤認為另一個人。這不是系統功能上的 bug,而是模型本身的數學弱點。

Q2(判斷題): 你要部署一個醫療影像 AI,有人擔心對抗性攻擊的風險。你應該花大量資源做對抗性防禦,還是先把精力放在提升模型基本準確率?

→ 看威脅模型。如果攻擊者有動機(如保險詐欺)且有管道修改輸入影像,對抗性防禦很重要。但如果影像來源可信(如醫院內部設備直接傳輸),被攻擊的可能性低,先提升基本準確率更務實。安全投資要跟實際風險匹配。

常見問題

普通用戶需要擔心對抗性攻擊嗎?

目前大多數對抗性攻擊還在學術研究階段,真實世界的大規模攻擊案例不多。但隨著 AI 在自駕車、金融、安防等高風險領域的普及,這個威脅會越來越真實。

有沒有辦法完全防禦對抗性攻擊?

目前沒有萬能的防禦方法。最常用的是「對抗性訓練」(把對抗樣本加進訓練資料),但這只能防禦已知的攻擊方法。攻防之間是一場持續的軍備競賽。

對抗性攻擊只影響圖像辨識嗎?

不是。文本、語音、表格資料都可以被攻擊。例如在文本中替換幾個同義詞就能讓情感分析模型判斷反轉,在語音中加入人耳聽不到的雜訊就能改變語音辨識的結果。