---
title: "訓練集（Training Set）"
slug: training-set
language: zh-TW
source: https://aiterms.tw/terms/training-set
updated_at: 2026-04-29
tags: [機器學習, 模型訓練, 資料處理, 模型評估, AI基礎, iPAS初級]
ipas_term: false
---

# 訓練集（Training Set）

> **你有沒有在考前一直刷題，想先把基本功練熟？**
> 你可以把訓練集想成「模型正式學習時拿來練習的資料」
> 模型會從這些資料裡學規律，但不該把答案背死
> 如果訓練集和驗證、測試切不好，後面評估就會失真
>
> 你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

### 容易混淆
> **訓練集 vs 驗證資料集**
> 訓練集用來學參數
> 驗證資料集用來調整設定和挑模型
> 最關鍵的區別：學習和調參不要混在一起
>
> **訓練集 vs 測試資料集**
> 訓練集是看過的資料
> 測試資料集是最後拿來評估的資料
> 最關鍵的區別：看過和沒看過
>
> **訓練集 vs 全部資料**
> 訓練集只是資料的一部分
> 全部資料還包含驗證和測試
> 最關鍵的區別：子集和全集不能混淆
>

### 記住這句就好
> 訓練集是練功用，不是最後拿來吹分數用。

### 實際案例
> **圖像分類**
> 把標註好的貓狗圖片拿來學習，模型才知道什麼特徵對分類有幫助
>
> **文字分類**
> 把新聞標題和標籤放進訓練集，模型才能學會分辨科技、財經和娛樂
>

### 算法與應用
> | 資料品質 | 錯標、重複、髒資料都會影響學習 | 比單純多資料更重要 |
> | 資料量 | 通常越多越好，但要看任務 | 太少容易過擬合 |
> | 切分方式 | 要和驗證、測試分開 | 避免資料外洩 |
> | 代表性 | 要盡量涵蓋真實情境 | 不然模型上線會失準 |

### 情境判斷
> **Q1（直覺題）：你把所有資料都拿去訓練，成績會更漂亮嗎？**
> → 表面上會，但那不代表模型真的會做新題目。
>
> **Q2（判斷題）：訓練集裡的表現很好，但實際上線不理想，先看什麼？**
> → 先看資料切分、標註品質和是否有過擬合。
>
### 常見問題
> **Q：訓練集越大越好嗎？**
> 通常越大越有利，但前提是品質要穩，髒資料只會放大問題。
>
> **Q：訓練集可以和測試集重疊嗎？**
> 不行，重疊會讓評估結果失真。
>
> **Q：資料切分比例一定要固定嗎？**
> 不一定，要看資料量和任務難度，重點是切分邏輯一致。
>

### 相關術語
> - **驗證資料集**：學完訓練集後還要用它調整模型
> - **測試資料集**：最後的真實考卷
> - **過擬合**：訓練集太好看時最常冒出的問題
> - **資料擴增術**：資料少時常用來補強訓練集

---

來源：https://aiterms.tw/terms/training-set
快查頁：https://aiterms.tw/terms/training-set
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-training-set