訓練集 是什麼?
Training Set — 訓練集 的完整解釋
訓練集是用於訓練機器學習模型的資料集,模型通過學習訓練集中的模式和關係來提升預測能力。
容易混淆
訓練集 vs 驗證資料集 訓練集用來學參數 驗證資料集用來調整設定和挑模型 最關鍵的區別:學習和調參不要混在一起
訓練集 vs 測試資料集 訓練集是看過的資料 測試資料集是最後拿來評估的資料 最關鍵的區別:看過和沒看過
訓練集 vs 全部資料 訓練集只是資料的一部分 全部資料還包含驗證和測試 最關鍵的區別:子集和全集不能混淆
記住這句就好
訓練集是練功用,不是最後拿來吹分數用。
實際案例
圖像分類 把標註好的貓狗圖片拿來學習,模型才知道什麼特徵對分類有幫助
文字分類 把新聞標題和標籤放進訓練集,模型才能學會分辨科技、財經和娛樂
算法與應用
| 資料品質 | 錯標、重複、髒資料都會影響學習 | 比單純多資料更重要 | | 資料量 | 通常越多越好,但要看任務 | 太少容易過擬合 | | 切分方式 | 要和驗證、測試分開 | 避免資料外洩 | | 代表性 | 要盡量涵蓋真實情境 | 不然模型上線會失準 |
情境判斷
Q1(直覺題):你把所有資料都拿去訓練,成績會更漂亮嗎? → 表面上會,但那不代表模型真的會做新題目。
Q2(判斷題):訓練集裡的表現很好,但實際上線不理想,先看什麼? → 先看資料切分、標註品質和是否有過擬合。
常見問題
訓練集越大越好嗎?
通常越大越有利,但前提是品質要穩,髒資料只會放大問題。
訓練集可以和測試集重疊嗎?
不行,重疊會讓評估結果失真。
資料切分比例一定要固定嗎?
不一定,要看資料量和任務難度,重點是切分邏輯一致。