後門攻擊是什麼？

Backdoor Attack — 後門攻擊的完整解釋

後門攻擊是一種針對機器學習模型的惡意攻擊，攻擊者在模型中植入後門，使其在特定觸發條件下產生預設的錯誤輸出。

容易混淆

後門攻擊 vs 對抗攻擊？ 後門攻擊：事先植入觸發條件與隱藏行為對抗攻擊：在輸入上做微小擾動騙模型出錯最關鍵的區別：後門是模型本體被動手腳，對抗攻擊是輸入被動手腳

後門攻擊 vs 資料外洩？ 後門攻擊：通常與訓練資料污染有關資料外洩：資料被未經授權拿走最關鍵的區別：前者是讓模型學壞，後者是資料被偷走

後門攻擊 vs 模型雜訊？ 後門攻擊：平常正常、觸發才異常模型雜訊：一般誤差或不穩定性最關鍵的區別：後門有明確觸發條件，雜訊沒有

記住這句就好

平常看不出來，碰到暗號才翻臉

實際案例

影像分類暗號 研究人員在訓練集裡混入帶特定貼紙的圖片，模型學會看到貼紙就改判類別

供應鏈風險 第三方模型在外部環境測試都正常，到了特定觸發條件卻輸出錯誤結果

算法與應用

重點你要看什麼為什麼重要

訓練階段污染資料或竄改權重把隱藏規則塞進模型

觸發條件貼紙、字串、聲音平常不會注意到的暗號

防禦資料審查、模型檢測、紅隊測試降低後門混入與啟動的機會

重點	你要看什麼	為什麼重要
訓練階段	污染資料或竄改權重	把隱藏規則塞進模型
觸發條件	貼紙、字串、聲音	平常不會注意到的暗號
防禦	資料審查、模型檢測、紅隊測試	降低後門混入與啟動的機會

情境判斷

Q1：模型只在看到特定小圖案時才判錯，這比一般分類錯誤更像什麼？ → 更像後門攻擊，因為有明確觸發條件

Q2：如果模型偶爾亂判，但沒有固定觸發模式，這一定是後門嗎？ → 不一定，可能只是模型不穩定或資料不足，還要看是否存在可重現的觸發規律

常見問題

後門攻擊一定來自惡意模型嗎？

不一定，也可能來自被污染的資料或供應鏈環節。

怎麼防後門？

要做資料審查、來源驗證、紅隊測試與異常行為檢查。

後門攻擊和對抗樣本有關嗎？

有關，但不是同一件事。前者藏在模型裡，後者藏在輸入裡。

← 回到後門攻擊快查頁

後門攻擊是什麼？

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

相關術語

相關術語

常見問題

後門攻擊一定來自惡意模型嗎？

怎麼防後門？

後門攻擊和對抗樣本有關嗎？

後門攻擊 是什麼？

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

相關術語

相關術語

常見問題

後門攻擊一定來自惡意模型嗎？

怎麼防後門？

後門攻擊和對抗樣本有關嗎？

後門攻擊是什麼？