學習率(Learning Rate)是什麼?

學習率是機器學習模型訓練中的關鍵超參數,它決定了梯度下降演算法每次更新模型參數的步長與幅度,過大可能導致模型震盪,過小則會使收斂速度緩慢。|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

學習率(Learning Rate)是什麼? 模型訓練最佳化

你有沒有看過模型明明在學,卻不是走太快就是走太慢? 你可以把學習率想成,模型每次修正時跨出去的步伐大小。 它其實就是控制參數更新幅度的超參數。 步伐太大會衝過頭,太小又會學很久還看不到成果。

你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。

容易混淆

學習率 vs 迭代次數 學習率決定每一步跨多大,迭代次數決定總共要走幾步。 一個管速度,一個管路程。

學習率 vs 批次大小 批次大小決定每次看多少資料,學習率決定看完後改多少。 資料多不代表步伐大,兩者是不同控制鈕。

最關鍵的區別: 一個管步幅,一個管步數。

記住這句就好

步伐剛剛好,模型才走得到終點。

實際案例

影像分類訓練 如果學習率太高,損失可能上下震盪,準確率一直上不去。

微調大模型 在微調時常會用更小的學習率,避免把原本學好的知識整個沖掉。

算法與應用

在梯度下降裡,學習率決定參數更新的幅度,更新太猛會跳過最佳點,太小則收斂很慢。 實務上會搭配 warmup、衰減或自適應優化器,讓前期和後期的步伐不同。 看訓練曲線時,學習率常是第一個要懷疑的超參數。

情境判斷

Q1(直覺題): 訓練時損失忽上忽下,哪個設定最值得先檢查?

先看學習率,因為步伐太大常會讓更新一直跳過頭。

Q2(判斷題): 學習率設得很小,一定比較安全嗎?

不一定,太小會讓模型幾乎不動,訓練時間拉長,甚至卡在不理想的位置。

常見問題

學習率太大會怎樣?

模型可能會在最佳點附近來回震盪,嚴重時還會發散。

學習率太小有什麼問題?

收斂速度會很慢,訓練很久卻沒什麼進展。

學習率要怎麼選?

通常要靠實驗,先看損失曲線和驗證集表現,再慢慢調整。