批次大小 是什麼?
Batch Size — 批次大小 的完整解釋
批次大小是訓練時每次更新模型參數所使用的樣本數,直接影響訓練速度、記憶體用量與模型收斂穩定性
容易混淆
批次大小 vs Epoch? 批次大小:每次更新前看的樣本數 Epoch:整個訓練集看過幾輪 最關鍵的區別:批次大小看一次看幾筆,Epoch 看全資料跑幾次
批次大小 vs 學習率? 批次大小:決定梯度估計的穩定度 學習率:決定參數往哪個方向走多大步 最關鍵的區別:批次大小管資料量,學習率管步伐大小
批次大小 vs Mini-batch? 批次大小:可分成小批次與全批次 Mini-batch:介於兩者之間的常見做法 最關鍵的區別:Mini-batch 其實就是最常用的批次訓練方式
記住這句就好
一次看得越多,更新越穩,但也越吃記憶體
實際案例
GPU 記憶體有限 大模型放不下太大的批次,只好把 batch size 調小,避免訓練時爆記憶體
訓練抖動 如果 loss 上下波動很大,可能是批次太小,梯度估計太吵
算法與應用
重點 你要看什麼 為什麼重要 小批次 更新快、雜訊大 有時泛化較好但較不穩 大批次 更新穩、吃記憶體 訓練吞吐高但可能要調學習率 選擇 看硬體與任務 沒有一個固定萬用答案
相關術語
常見問題
批次大小怎麼選?
先看硬體能放多少,再用驗證集測試穩定性與效果。
批次大小會影響泛化嗎?
會,較小批次常帶來較大雜訊,有時反而有助泛化。
Batch size 和 mini-batch 一樣嗎?
在很多語境裡 mini-batch 就是指實務上常用的那個批次大小。