BA（後門攻擊）是什麼？完整定義與解說

機器學習深度學習

模型平常看起來很正常，為什麼一出現某個小圖案就突然判錯？ 你可以把後門攻擊想成偷偷塞進模型裡的暗號，平常不發作，遇到特定觸發條件才啟動。它比一般攻擊更麻煩，因為模型在大多數測試裡可能都還看起來沒問題。

你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

容易混淆

後門攻擊 vs 對抗攻擊？ 後門攻擊：事先植入觸發條件與隱藏行為對抗攻擊：在輸入上做微小擾動騙模型出錯最關鍵的區別：後門是模型本體被動手腳，對抗攻擊是輸入被動手腳

後門攻擊 vs 資料外洩？ 後門攻擊：通常與訓練資料污染有關資料外洩：資料被未經授權拿走最關鍵的區別：前者是讓模型學壞，後者是資料被偷走

後門攻擊 vs 模型雜訊？ 後門攻擊：平常正常、觸發才異常模型雜訊：一般誤差或不穩定性最關鍵的區別：後門有明確觸發條件，雜訊沒有

記住這句就好

平常看不出來，碰到暗號才翻臉

實際案例

影像分類暗號 研究人員在訓練集裡混入帶特定貼紙的圖片，模型學會看到貼紙就改判類別

供應鏈風險 第三方模型在外部環境測試都正常，到了特定觸發條件卻輸出錯誤結果

算法與應用

重點你要看什麼為什麼重要

訓練階段污染資料或竄改權重把隱藏規則塞進模型

觸發條件貼紙、字串、聲音平常不會注意到的暗號

防禦資料審查、模型檢測、紅隊測試降低後門混入與啟動的機會

重點	你要看什麼	為什麼重要
訓練階段	污染資料或竄改權重	把隱藏規則塞進模型
觸發條件	貼紙、字串、聲音	平常不會注意到的暗號
防禦	資料審查、模型檢測、紅隊測試	降低後門混入與啟動的機會

情境判斷

Q1：模型只在看到特定小圖案時才判錯，這比一般分類錯誤更像什麼？ → 更像後門攻擊，因為有明確觸發條件

Q2：如果模型偶爾亂判，但沒有固定觸發模式，這一定是後門嗎？ → 不一定，可能只是模型不穩定或資料不足，還要看是否存在可重現的觸發規律

常見問題

後門攻擊一定來自惡意模型嗎？

不一定，也可能來自被污染的資料或供應鏈環節。

怎麼防後門？

要做資料審查、來源驗證、紅隊測試與異常行為檢查。

後門攻擊和對抗樣本有關嗎？

有關，但不是同一件事。前者藏在模型裡，後者藏在輸入裡。

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

常見問題

相關術語

延伸學習

資料來源與參考依據