資料漂移(Data Drift)是什麼?

資料漂移是指模型上線後,輸入資料的分布與訓練資料不同,進而造成模型預測效能降低的現象|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

資料漂移(Data Drift)是什麼? 資料處理異常偵測

你有沒有在模型上線後,表現突然開始掉分時,還在想這件事到底該怎麼看?

把它想成考卷內容換了,模型學過的答案不太管用了。 訓練資料和上線資料分布不同,模型就可能越用越不準。 它是 MLOps 裡很重要的監控指標,因為環境真的會變。

你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。

容易混淆

overfitting vs 模型過擬合:模型過擬合像學生死記硬背課本,考卷稍微變形就不會;資料漂移則像考卷內容完全換了,學生學的知識根本用不上,是外部環境變化導致的問題。 常見混淆:資料漂移 vs overfitting 過擬合是模型背太熟,資料漂移是外部資料分布變了。

記住這句就好

資料分布變了,模型就可能跟著失準。

實際案例

電商推薦 節日、季節和商品組合一變,使用者行為分布也跟著變。 風控模型 詐欺手法更新後,原本的特徵可能不再有效。

算法與應用

  1. 資料漂移看的是輸入分布變化,不一定等於模型本身壞掉。
  2. 常用指標有 KS 檢定、KL 散度和 Wasserstein 距離。
  3. 發現漂移後,常見做法是重新訓練、調整特徵或改監控策略。

情境判斷

Q1: 模型訓練時很好,上線後突然變差,先懷疑什麼?

先懷疑資料漂移或資料管線出了變化。

Q2: 如果只是模型自己參數不穩,還算資料漂移嗎?

不算,那比較像模型問題;漂移重點是輸入資料分布變了。

常見問題

如何量化資料漂移的程度?

量化資料漂移程度可以使用多種統計指標,例如 Kolmogorov-Smirnov 檢驗的 D 值、KL 散度、Wasserstein 距離等。這些指標可以衡量訓練資料和實際應用資料分布之間的差異程度,數值越大表示漂移程度越高。選擇哪種指標取決於資料的類型和分布特性。

有哪些常用的資料漂移檢測工具?

常用的資料漂移檢測工具包括 TensorFlow Data Validation (TFDV)、Evidently AI、NannyML 等。這些工具可以自動計算資料的統計特性,並檢測是否存在資料漂移。它們通常提供可視化界面,方便使用者分析和理解資料漂移的原因。

如何有效地處理資料漂移?

處理資料漂移的方法包括重新訓練模型、調整模型參數、使用線上學習算法、以及進行資料增強等。重新訓練模型是常見的方法,但需要注意避免過擬合。線上學習算法可以不斷學習新的資料,以適應資料分布的變化。資料增強可以通過合成新的資料來擴充訓練集,以減少資料漂移的影響。

範例考題

某企業將機器學習模型部署於線上推薦系統。模型在測試階段表現良好,但上線數月後,點擊率與預測準確度逐漸下降。經分析發現,近期使用者行為模式與模型訓練期間的資料特徵出現顯著變化。此現象最可能屬於下列何者?

  • A. 模型過度擬合訓練資料,無法泛化至未知樣本
  • B. 特徵工程設計不佳,導致輸入資訊不足
  • C. 資料統計特徵隨時間改變,影響模型推論效果 ✓ 正確答案
  • D. 系統資料結構調整,造成特徵欄位錯置

解析:

使用者行為模式隨時間改變,導致訓練資料的統計特徵不再反映當前情況,這是典型的資料漂移(Data Drift)現象,會影響模型推論效果。