---
title: "梯度下降（Gradient Descent）"
slug: gradient-descent
language: zh-TW
source: https://aiterms.tw/terms/gradient-descent
updated_at: 2026-04-29
tags: [最佳化, 模型訓練, 數學基礎, iPAS初級]
ipas_term: true
---

# 梯度下降（Gradient Descent）

> **你有沒有想過，模型是怎麼一步一步把錯誤壓下來的？**
>
> 你可以把梯度下降想成沿著山坡往低處走的過程。
> 它會根據損失函數的斜率調整參數，讓模型慢慢往更好的答案靠近。
>
> 你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

### 容易混淆

> **梯度下降 vs 隨機梯度下降**
> 梯度下降每次看整批資料
> 隨機梯度下降每次看較小的資料片段
> 最關鍵的區別是穩定慢，還是快但抖
>
> **梯度下降 vs 最小平方法**
> 梯度下降是迭代式優化
> 最小平方法是直接求解析解的路徑
> 最關鍵的區別是反覆逼近，還是一次算出來
>
### 記住這句就好

> 沿著最陡方向往山谷走，慢慢修正。

### 實際案例

> **線性回歸**
> 你要找一條最適合資料的直線時，梯度下降可以一點一點把參數調到更好的位置。
>
> **神經網路訓練**
> 深度學習裡的大多數權重更新，本質上都是梯度下降在工作。
>
### 算法與應用

> 核心三件事是梯度、學習率和損失函數，這三個要一起看。
> 步伐太大會震盪，太小會很慢，所以調學習率幾乎是每次訓練都會做的事。

### 情境判斷

> **Q1：** 損失一直掉得很慢，第一個會懷疑什麼？
> → 先看學習率是不是太小，或者特徵和模型是否太保守。
>
> **Q2：** 訓練到一半損失忽上忽下，會想到什麼？
> → 可能學習率太高，或批次太小導致更新太晃。
>
### iPAS 考題

> 出題方向：常考梯度下降的概念、學習率影響，以及和最小平方法的差異。
> **題目：** 某模型在訓練時，透過反覆修正參數來讓損失函數下降，這最符合哪個概念？
> → **答案：** 梯度下降。它的核心就是根據梯度方向持續更新參數，讓誤差逐步變小。

### 常見問題

> **Q：梯度下降一定會找到全域最小值嗎？**
> 不一定，尤其在非凸問題上可能卡在局部最小值或鞍點。
>
> **Q：學習率越大越好嗎？**
> 不是，太大會震盪甚至發散。
>
> **Q：什麼時候要用批次梯度下降？**
> 當你想要比較穩定的更新，而且資料量和算力允許時。
>
### 相關術語

> - **學習率**：梯度下降好不好走，很大部分就看這個設定
> - **批次大小**：每次看多少資料，會影響更新穩定度
> - **訓練輪次**：梯度下降通常會在多個 epoch 中反覆進行
> - **正則化**：幫模型不要一路追著訓練資料跑太遠
> - **深度學習**：幾乎所有深度學習訓練都離不開它

---

來源：https://aiterms.tw/terms/gradient-descent
快查頁：https://aiterms.tw/terms/gradient-descent
外部參考：https://ipd.nat.gov.tw/ipas/certification/AIAP/news/ffdba0fcdbda40baadeef2a1bdc0230e
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-gradient-descent