後門攻擊 是什麼?

Backdoor Attack — 後門攻擊 的完整解釋

後門攻擊是一種針對機器學習模型的惡意攻擊,攻擊者在模型中植入後門,使其在特定觸發條件下產生預設的錯誤輸出。

容易混淆

後門攻擊 vs 對抗攻擊? 後門攻擊:事先植入觸發條件與隱藏行為 對抗攻擊:在輸入上做微小擾動騙模型出錯 最關鍵的區別:後門是模型本體被動手腳,對抗攻擊是輸入被動手腳

後門攻擊 vs 資料外洩? 後門攻擊:通常與訓練資料污染有關 資料外洩:資料被未經授權拿走 最關鍵的區別:前者是讓模型學壞,後者是資料被偷走

後門攻擊 vs 模型雜訊? 後門攻擊:平常正常、觸發才異常 模型雜訊:一般誤差或不穩定性 最關鍵的區別:後門有明確觸發條件,雜訊沒有

記住這句就好

平常看不出來,碰到暗號才翻臉

實際案例

影像分類暗號 研究人員在訓練集裡混入帶特定貼紙的圖片,模型學會看到貼紙就改判類別

供應鏈風險 第三方模型在外部環境測試都正常,到了特定觸發條件卻輸出錯誤結果

算法與應用

重點 你要看什麼 為什麼重要
訓練階段 污染資料或竄改權重 把隱藏規則塞進模型
觸發條件 貼紙、字串、聲音 平常不會注意到的暗號
防禦 資料審查、模型檢測、紅隊測試 降低後門混入與啟動的機會

情境判斷

Q1:模型只在看到特定小圖案時才判錯,這比一般分類錯誤更像什麼? → 更像後門攻擊,因為有明確觸發條件

Q2:如果模型偶爾亂判,但沒有固定觸發模式,這一定是後門嗎? → 不一定,可能只是模型不穩定或資料不足,還要看是否存在可重現的觸發規律

相關術語

常見問題

後門攻擊一定來自惡意模型嗎?

不一定,也可能來自被污染的資料或供應鏈環節。

怎麼防後門?

要做資料審查、來源驗證、紅隊測試與異常行為檢查。

後門攻擊和對抗樣本有關嗎?

有關,但不是同一件事。前者藏在模型裡,後者藏在輸入裡。