---
title: "資料版本控制（Data Versioning）"
slug: data-versioning
language: zh-TW
source: https://aiterms.tw/terms/data-versioning
updated_at: 2026-04-29
tags: [機器學習, 資料處理, MLOps, 模型訓練, 模型評估, AI基礎]
ipas_term: false
---

# 資料版本控制（Data Versioning）

> **你有沒有在你想知道這次拿去訓練的資料是哪一版時，還在想這件事到底該怎麼看？**
>
> 把它想成資料集的版本號，讓你知道自己用了哪份內容。
> 沒有版本控制，實驗很難重現，出了問題也很難回頭。
> 它對 MLOps 很重要，因為資料變了，模型結果也會跟著變。
>
> 就像先用生活中的例子抓住核心用途，再回頭看名詞和公式，理解會穩很多。

### 容易混淆
> **backup**
> vs 程式碼版本控制：程式碼版本控制是追蹤程式碼的修改歷史；資料版本控制則是追蹤資料集的修改歷史，兩者都是為了可追溯和協作，但對象不同。
> **常見混淆：資料版本控制 vs backup**
> 備份是保留副本，版本控制是保留變更歷史。

### 記住這句就好
> 資料版本要對得回去，實驗才重得出來。

### 實際案例
> **重跑實驗**
> 半年後重新訓練，必須知道當時用的是哪一版資料。
> **法遵追溯**
> 遇到審查時，要能說清楚哪版資料在什麼時間被使用。

### 深入了解
> 1. 它跟程式碼版本控制很像，但追的是資料集，不是程式。
> 2. 好的版本管理要能回復、比較和標記變更原因。
> 3. 當資料來源很多時，版本和血緣最好一起管理。

### 情境判斷
> **Q1：如果一個模型結果半年後重跑不出來，先檢查什麼？**
> → 先檢查資料版本和前處理流程有沒有被固定下來。
> **Q2：資料版本控制和備份是一樣的嗎？**
> → 不一樣，備份是保留副本，版本控制是保留變更歷史。

### 常見問題
> **Q：為什麼資料版本控制對於機器學習專案很重要？**
> 資料版本控制確保機器學習專案的可重現性、可追溯性，並允許在資料出現問題時回復到先前的版本。這對於確保模型的可靠性和可信度至關重要，尤其是在需要符合法規要求的領域。
> **Q：資料版本控制與資料備份有什麼不同？**
> 資料版本控制追蹤資料集的變更歷史，允許回復到先前的版本。資料備份則提供資料的完整副本，以防止資料遺失。兩者是互補的，資料版本控制著重於變更管理，資料備份著重於資料保護。
> **Q：如何選擇適合我的專案的資料版本控制工具？**
> 選擇資料版本控制工具時，需要考慮資料集的大小、複雜性、團隊規模以及所需的特性，例如版本控制、變更追蹤、元資料管理和協作功能。DVC、Pachyderm 和 lakeFS 都是流行的選擇，但應根據具體需求進行評估。

### 相關術語
> - **資料血緣追蹤**：看完這個後，再回來看 資料版本控制 會更容易把脈絡接起來。
> - **資料管線**：看完這個後，再回來看 資料版本控制 會更容易把脈絡接起來。
> - **機器學習維運**：看完這個後，再回來看 資料版本控制 會更容易把脈絡接起來。
> - **模型版本控制**：看完這個後，再回來看 資料版本控制 會更容易把脈絡接起來。
> - **資料品質監控**：看完這個後，再回來看 資料版本控制 會更容易把脈絡接起來。

---

來源：https://aiterms.tw/terms/data-versioning
快查頁：https://aiterms.tw/terms/data-versioning
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-data-versioning