LR（學習率）是什麼？完整定義與解說

收斂速度會很慢，訓練很久卻沒什麼進展。

你有沒有看過模型明明在學，卻不是走太快就是走太慢？ 你可以把學習率想成，模型每次修正時跨出去的步伐大小。它其實就是控制參數更新幅度的超參數。步伐太大會衝過頭，太小又會學很久還看不到成果。

你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

容易混淆

學習率 vs 迭代次數 學習率決定每一步跨多大，迭代次數決定總共要走幾步。一個管速度，一個管路程。

學習率 vs 批次大小 批次大小決定每次看多少資料，學習率決定看完後改多少。資料多不代表步伐大，兩者是不同控制鈕。

最關鍵的區別： 一個管步幅，一個管步數。

步伐剛剛好，模型才走得到終點。

影像分類訓練 如果學習率太高，損失可能上下震盪，準確率一直上不去。

微調大模型 在微調時常會用更小的學習率，避免把原本學好的知識整個沖掉。

在梯度下降裡，學習率決定參數更新的幅度，更新太猛會跳過最佳點，太小則收斂很慢。實務上會搭配 warmup、衰減或自適應優化器，讓前期和後期的步伐不同。看訓練曲線時，學習率常是第一個要懷疑的超參數。

Q1（直覺題）： 訓練時損失忽上忽下，哪個設定最值得先檢查？

先看學習率，因為步伐太大常會讓更新一直跳過頭。

Q2（判斷題）： 學習率設得很小，一定比較安全嗎？

不一定，太小會讓模型幾乎不動，訓練時間拉長，甚至卡在不理想的位置。

學習率太大會怎樣？

模型可能會在最佳點附近來回震盪，嚴重時還會發散。

學習率太小有什麼問題？

收斂速度會很慢，訓練很久卻沒什麼進展。

學習率要怎麼選？

通常要靠實驗，先看損失曲線和驗證集表現，再慢慢調整。