AA（對抗性攻擊）是什麼？完整定義與解說

模型評估模型訓練

你有沒有看過那種在停車標誌上貼幾張貼紙，自駕車就把它認成限速標誌的影片？

對抗性攻擊就是透過對輸入資料做微小的、人眼幾乎看不出的修改，讓 AI 模型產生完全錯誤的判斷。這不是隨機加雜訊，而是精心計算過的擾動，專門針對模型的數學弱點下手。一張熊貓的照片加上肉眼不可見的雜訊，模型就會信心滿滿地說那是長臂猿。

這對所有依賴 AI 做決策的系統都是嚴重的安全威脅。

就像先用生活中的例子抓住核心用途，再回頭看名詞和公式，理解會穩很多。

容易混淆

對抗性攻擊 vs 資料投毒 vs 後門攻擊

對抗性攻擊：在推論階段修改輸入資料，讓已訓練好的模型判斷錯誤。

資料投毒：在訓練階段污染訓練資料，讓模型從根本上學歪。

後門攻擊：在訓練時植入隱藏的觸發器，平時正常，特定條件觸發時才出錯。

最關鍵的區別：對抗性攻擊不動模型本身，只動輸入；資料投毒和後門攻擊動的是模型的訓練過程。

記住這句就好

人眼看不出差別，AI 卻判斷完全相反。

實際案例

自駕車交通標誌辨識

研究者在停車標誌上貼了幾張特定位置的小貼紙，人類一看就知道是停車標誌，但自駕車的視覺系統卻把它辨識為限速 45 英里標誌。這種「實體世界」的對抗性攻擊比數位攻擊更危險，因為它能在真實環境中生效。

語音助手劫持

研究者把人耳聽不到的超音波指令嵌入一段正常的音樂中，播放這段音樂時，旁邊的智慧音箱會執行隱藏的指令（如撥打電話、打開網頁）。使用者完全不知道發生了什麼事。

深入了解

常見的對抗性攻擊方法

方法原理特點

FGSM（快速梯度符號法）沿著損失函數梯度的方向加一步擾動速度快但攻擊力較弱

PGD（投影梯度下降）多步迭代的 FGSM，每步都限制擾動大小更強但更慢

C&W 攻擊把攻擊轉化為最佳化問題，最小化擾動量攻擊力最強，幾乎不可察覺

黑盒攻擊不需要知道模型內部結構，只靠輸出結果探測更接近真實攻擊場景

方法	原理	特點
FGSM（快速梯度符號法）	沿著損失函數梯度的方向加一步擾動	速度快但攻擊力較弱
PGD（投影梯度下降）	多步迭代的 FGSM，每步都限制擾動大小	更強但更慢
C&W 攻擊	把攻擊轉化為最佳化問題，最小化擾動量	攻擊力最強，幾乎不可察覺
黑盒攻擊	不需要知道模型內部結構，只靠輸出結果探測	更接近真實攻擊場景

情境判斷

Q1（直覺題）： 你的人臉辨識門禁系統被發現可以用一副特殊花紋的眼鏡騙過。這是對抗性攻擊還是系統 bug？

→ 對抗性攻擊。眼鏡的花紋是精心設計的擾動，專門讓模型把一個人誤認為另一個人。這不是系統功能上的 bug，而是模型本身的數學弱點。

Q2（判斷題）： 你要部署一個醫療影像 AI，有人擔心對抗性攻擊的風險。你應該花大量資源做對抗性防禦，還是先把精力放在提升模型基本準確率？

→ 看威脅模型。如果攻擊者有動機（如保險詐欺）且有管道修改輸入影像，對抗性防禦很重要。但如果影像來源可信（如醫院內部設備直接傳輸），被攻擊的可能性低，先提升基本準確率更務實。安全投資要跟實際風險匹配。

常見問題

普通用戶需要擔心對抗性攻擊嗎？

目前大多數對抗性攻擊還在學術研究階段，真實世界的大規模攻擊案例不多。但隨著 AI 在自駕車、金融、安防等高風險領域的普及，這個威脅會越來越真實。

有沒有辦法完全防禦對抗性攻擊？

目前沒有萬能的防禦方法。最常用的是「對抗性訓練」（把對抗樣本加進訓練資料），但這只能防禦已知的攻擊方法。攻防之間是一場持續的軍備競賽。

對抗性攻擊只影響圖像辨識嗎？

不是。文本、語音、表格資料都可以被攻擊。例如在文本中替換幾個同義詞就能讓情感分析模型判斷反轉，在語音中加入人耳聽不到的雜訊就能改變語音辨識的結果。

容易混淆

記住這句就好

實際案例

深入了解

情境判斷

常見問題

相關術語

延伸學習

資料來源與參考依據