學習率排程是什麼？

Learning Rate Scheduling — 學習率排程的完整解釋

學習率排程是一種在訓練過程中調整學習率的技術，旨在加速收斂、避免震盪，並提高模型的泛化能力。常見方法包括步階衰減、指數衰減和餘弦退火。

學習率排程 vs 固定學習率 固定學習率從頭用到尾，排程會依訓練階段改變步伐。一個不變，一個會看情況調整。

學習率排程 vs 提前終止 排程是調學習率，提前終止是決定什麼時候停訓練。一個管怎麼走，一個管何時收工。

最關鍵的區別： 排程在調步伐，提前終止在決定停不停。

前快後慢，模型比較容易走進好位置。

大型模型訓練 前期用較高學習率快速摸清方向，後期慢慢降下來，能讓收斂更平滑。

小資料微調 在小資料微調時，用排程把學習率逐步降低，能減少把原模型弄壞的風險。

常見排程包括 step decay、exponential decay、cosine decay 和 warmup。這些方法的共同目標，是讓訓練前期有足夠探索，後期有更細的修正。在長時間訓練、資料量大或需要高穩定性的任務裡特別常見。

Q1（直覺題）：模型前期學得很快，後期卻一直震盪，哪個工具最像解法？

→ 學習率排程，因為後期把步伐調小，通常能讓收斂更細。

Q2（判斷題）：所有任務都要用複雜的學習率排程嗎？

→ 不一定，資料少或問題簡單時，固定學習率也可能夠用。

常見問題

讓模型在訓練前期學得快、後期收斂得更細。

就是一開始先用較小的學習率，避免模型剛起步時更新過猛。

排程在改步伐大小，動量在改更新方向的慣性，兩者可以一起用。