---
title: "學習率（Learning Rate）"
slug: learning-rate
language: zh-TW
source: https://aiterms.tw/terms/learning-rate
updated_at: 2026-04-29
tags: [模型訓練, 最佳化]
ipas_term: false
---

# 學習率（Learning Rate）

> **你有沒有看過模型明明在學，卻不是走太快就是走太慢？**
> 你可以把學習率想成，模型每次修正時跨出去的步伐大小。
> 它其實就是控制參數更新幅度的超參數。
> 步伐太大會衝過頭，太小又會學很久還看不到成果。
>
>
> 你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

### 容易混淆
> **學習率 vs 迭代次數**
> 學習率決定每一步跨多大，迭代次數決定總共要走幾步。
> 一個管速度，一個管路程。
>
> **學習率 vs 批次大小**
> 批次大小決定每次看多少資料，學習率決定看完後改多少。
> 資料多不代表步伐大，兩者是不同控制鈕。
>
> **最關鍵的區別：** 一個管步幅，一個管步數。
>
### 記住這句就好
> 步伐剛剛好，模型才走得到終點。
>
### 實際案例
> **影像分類訓練**
> 如果學習率太高，損失可能上下震盪，準確率一直上不去。
>
> **微調大模型**
> 在微調時常會用更小的學習率，避免把原本學好的知識整個沖掉。
>
### 算法與應用
> 在梯度下降裡，學習率決定參數更新的幅度，更新太猛會跳過最佳點，太小則收斂很慢。
> 實務上會搭配 warmup、衰減或自適應優化器，讓前期和後期的步伐不同。
> 看訓練曲線時，學習率常是第一個要懷疑的超參數。
>
### 情境判斷
> **Q1（直覺題）： 訓練時損失忽上忽下，哪個設定最值得先檢查？**
>
> → 先看學習率，因為步伐太大常會讓更新一直跳過頭。
>
> **Q2（判斷題）： 學習率設得很小，一定比較安全嗎？**
>
> → 不一定，太小會讓模型幾乎不動，訓練時間拉長，甚至卡在不理想的位置。
>
### 常見問題
> **Q：學習率太大會怎樣？**
> 模型可能會在最佳點附近來回震盪，嚴重時還會發散。
>
> **Q：學習率太小有什麼問題？**
> 收斂速度會很慢，訓練很久卻沒什麼進展。
>
> **Q：學習率要怎麼選？**
> 通常要靠實驗，先看損失曲線和驗證集表現，再慢慢調整。
>
### 相關術語
> - **梯度下降**：學習率就是梯度下降每一步的核心設定。
> - **代價函數**：讀懂它，才知道學習率在優化什麼。
> - **提前終止**：如果學習率讓模型學太久，這個技巧常一起上場。
> - **學習率排程**：看完這個後，再看排程會知道為什麼要動態調步伐。

---

來源：https://aiterms.tw/terms/learning-rate
快查頁：https://aiterms.tw/terms/learning-rate
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-learning-rate