模型平常看起來很正常,為什麼一出現某個小圖案就突然判錯? 你可以把後門攻擊想成偷偷塞進模型裡的暗號,平常不發作,遇到特定觸發條件才啟動。 它比一般攻擊更麻煩,因為模型在大多數測試裡可能都還看起來沒問題。
你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。
容易混淆
後門攻擊 vs 對抗攻擊? 後門攻擊:事先植入觸發條件與隱藏行為 對抗攻擊:在輸入上做微小擾動騙模型出錯 最關鍵的區別:後門是模型本體被動手腳,對抗攻擊是輸入被動手腳
後門攻擊 vs 資料外洩? 後門攻擊:通常與訓練資料污染有關 資料外洩:資料被未經授權拿走 最關鍵的區別:前者是讓模型學壞,後者是資料被偷走
後門攻擊 vs 模型雜訊? 後門攻擊:平常正常、觸發才異常 模型雜訊:一般誤差或不穩定性 最關鍵的區別:後門有明確觸發條件,雜訊沒有
記住這句就好
平常看不出來,碰到暗號才翻臉
實際案例
影像分類暗號 研究人員在訓練集裡混入帶特定貼紙的圖片,模型學會看到貼紙就改判類別
供應鏈風險 第三方模型在外部環境測試都正常,到了特定觸發條件卻輸出錯誤結果
算法與應用
重點 你要看什麼 為什麼重要 訓練階段 污染資料或竄改權重 把隱藏規則塞進模型 觸發條件 貼紙、字串、聲音 平常不會注意到的暗號 防禦 資料審查、模型檢測、紅隊測試 降低後門混入與啟動的機會
情境判斷
Q1:模型只在看到特定小圖案時才判錯,這比一般分類錯誤更像什麼? → 更像後門攻擊,因為有明確觸發條件
Q2:如果模型偶爾亂判,但沒有固定觸發模式,這一定是後門嗎? → 不一定,可能只是模型不穩定或資料不足,還要看是否存在可重現的觸發規律
常見問題
後門攻擊一定來自惡意模型嗎?
不一定,也可能來自被污染的資料或供應鏈環節。
怎麼防後門?
要做資料審查、來源驗證、紅隊測試與異常行為檢查。
後門攻擊和對抗樣本有關嗎?
有關,但不是同一件事。前者藏在模型裡,後者藏在輸入裡。