---
title: "資料漂移（Data Drift）"
slug: data-drift
language: zh-TW
source: https://aiterms.tw/terms/data-drift
updated_at: 2026-04-29
tags: [資料處理, 異常偵測, 模型部署]
ipas_term: false
---

# 資料漂移（Data Drift）

> **你有沒有在模型上線後，表現突然開始掉分時，還在想這件事到底該怎麼看？**
>
> 把它想成考卷內容換了，模型學過的答案不太管用了。
> 訓練資料和上線資料分布不同，模型就可能越用越不準。
> 它是 MLOps 裡很重要的監控指標，因為環境真的會變。
>
> 你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

### 容易混淆
> **overfitting**
> vs 模型過擬合：模型過擬合像學生死記硬背課本，考卷稍微變形就不會；資料漂移則像考卷內容完全換了，學生學的知識根本用不上，是外部環境變化導致的問題。
> **常見混淆：資料漂移 vs overfitting**
> 過擬合是模型背太熟，資料漂移是外部資料分布變了。

### 記住這句就好
> 資料分布變了，模型就可能跟著失準。

### 實際案例
> **電商推薦**
> 節日、季節和商品組合一變，使用者行為分布也跟著變。
> **風控模型**
> 詐欺手法更新後，原本的特徵可能不再有效。

### 算法與應用
> 1. 資料漂移看的是輸入分布變化，不一定等於模型本身壞掉。
> 2. 常用指標有 KS 檢定、KL 散度和 Wasserstein 距離。
> 3. 發現漂移後，常見做法是重新訓練、調整特徵或改監控策略。

### 情境判斷
> **Q1：模型訓練時很好，上線後突然變差，先懷疑什麼？**
> → 先懷疑資料漂移或資料管線出了變化。
> **Q2：如果只是模型自己參數不穩，還算資料漂移嗎？**
> → 不算，那比較像模型問題；漂移重點是輸入資料分布變了。

### 常見問題
> **Q：如何量化資料漂移的程度？**
> 量化資料漂移程度可以使用多種統計指標，例如 Kolmogorov-Smirnov 檢驗的 D 值、KL 散度、Wasserstein 距離等。這些指標可以衡量訓練資料和實際應用資料分布之間的差異程度，數值越大表示漂移程度越高。選擇哪種指標取決於資料的類型和分布特性。
> **Q：有哪些常用的資料漂移檢測工具？**
> 常用的資料漂移檢測工具包括 TensorFlow Data Validation (TFDV)、Evidently AI、NannyML 等。這些工具可以自動計算資料的統計特性，並檢測是否存在資料漂移。它們通常提供可視化界面，方便使用者分析和理解資料漂移的原因。
> **Q：如何有效地處理資料漂移？**
> 處理資料漂移的方法包括重新訓練模型、調整模型參數、使用線上學習算法、以及進行資料增強等。重新訓練模型是常見的方法，但需要注意避免過擬合。線上學習算法可以不斷學習新的資料，以適應資料分布的變化。資料增強可以通過合成新的資料來擴充訓練集，以減少資料漂移的影響。

### 相關術語
> - **機器學習維運**：看完這個後，再回來看 資料漂移 會更容易把脈絡接起來。
> - **模型部署**：看完這個後，再回來看 資料漂移 會更容易把脈絡接起來。
> - **特徵工程**：看完這個後，再回來看 資料漂移 會更容易把脈絡接起來。
> - **可解釋人工智慧**：看完這個後，再回來看 資料漂移 會更容易把脈絡接起來。
> - **聯邦學習**：看完這個後，再回來看 資料漂移 會更容易把脈絡接起來。

---

來源：https://aiterms.tw/terms/data-drift
快查頁：https://aiterms.tw/terms/data-drift
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-data-drift