學習率排程 是什麼?
Learning Rate Scheduling — 學習率排程 的完整解釋
學習率排程是一種在訓練過程中調整學習率的技術,旨在加速收斂、避免震盪,並提高模型的泛化能力。常見方法包括步階衰減、指數衰減和餘弦退火。
容易混淆
學習率排程 vs 固定學習率 固定學習率從頭用到尾,排程會依訓練階段改變步伐。 一個不變,一個會看情況調整。
學習率排程 vs 提前終止 排程是調學習率,提前終止是決定什麼時候停訓練。 一個管怎麼走,一個管何時收工。
最關鍵的區別: 排程在調步伐,提前終止在決定停不停。
記住這句就好
前快後慢,模型比較容易走進好位置。
實際案例
大型模型訓練 前期用較高學習率快速摸清方向,後期慢慢降下來,能讓收斂更平滑。
小資料微調 在小資料微調時,用排程把學習率逐步降低,能減少把原模型弄壞的風險。
算法與應用
常見排程包括 step decay、exponential decay、cosine decay 和 warmup。 這些方法的共同目標,是讓訓練前期有足夠探索,後期有更細的修正。 在長時間訓練、資料量大或需要高穩定性的任務裡特別常見。
情境判斷
Q1(直覺題): 模型前期學得很快,後期卻一直震盪,哪個工具最像解法?
→ 學習率排程,因為後期把步伐調小,通常能讓收斂更細。
Q2(判斷題): 所有任務都要用複雜的學習率排程嗎?
→ 不一定,資料少或問題簡單時,固定學習率也可能夠用。
相關術語
常見問題
學習率排程最常見的用途是什麼?
讓模型在訓練前期學得快、後期收斂得更細。
warmup 是什麼?
就是一開始先用較小的學習率,避免模型剛起步時更新過猛。
學習率排程和動量有什麼不同?
排程在改步伐大小,動量在改更新方向的慣性,兩者可以一起用。