你有沒有看過模型明明在學,卻不是走太快就是走太慢? 你可以把學習率想成,模型每次修正時跨出去的步伐大小。 它其實就是控制參數更新幅度的超參數。 步伐太大會衝過頭,太小又會學很久還看不到成果。
你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。
容易混淆
學習率 vs 迭代次數 學習率決定每一步跨多大,迭代次數決定總共要走幾步。 一個管速度,一個管路程。
學習率 vs 批次大小 批次大小決定每次看多少資料,學習率決定看完後改多少。 資料多不代表步伐大,兩者是不同控制鈕。
最關鍵的區別: 一個管步幅,一個管步數。
記住這句就好
步伐剛剛好,模型才走得到終點。
實際案例
影像分類訓練 如果學習率太高,損失可能上下震盪,準確率一直上不去。
微調大模型 在微調時常會用更小的學習率,避免把原本學好的知識整個沖掉。
算法與應用
在梯度下降裡,學習率決定參數更新的幅度,更新太猛會跳過最佳點,太小則收斂很慢。 實務上會搭配 warmup、衰減或自適應優化器,讓前期和後期的步伐不同。 看訓練曲線時,學習率常是第一個要懷疑的超參數。
情境判斷
Q1(直覺題): 訓練時損失忽上忽下,哪個設定最值得先檢查?
先看學習率,因為步伐太大常會讓更新一直跳過頭。
Q2(判斷題): 學習率設得很小,一定比較安全嗎?
不一定,太小會讓模型幾乎不動,訓練時間拉長,甚至卡在不理想的位置。
常見問題
學習率太大會怎樣?
模型可能會在最佳點附近來回震盪,嚴重時還會發散。
學習率太小有什麼問題?
收斂速度會很慢,訓練很久卻沒什麼進展。
學習率要怎麼選?
通常要靠實驗,先看損失曲線和驗證集表現,再慢慢調整。