梯度下降 是什麼?

Gradient Descent — 梯度下降 的完整解釋

梯度下降是一種透過反覆運算,沿損失函數的梯度方向,逐步逼近損失函數最小值的演算法

容易混淆

梯度下降 vs 隨機梯度下降 梯度下降每次看整批資料 隨機梯度下降每次看較小的資料片段 最關鍵的區別是穩定慢,還是快但抖

梯度下降 vs 最小平方法 梯度下降是迭代式優化 最小平方法是直接求解析解的路徑 最關鍵的區別是反覆逼近,還是一次算出來

記住這句就好

沿著最陡方向往山谷走,慢慢修正。

實際案例

線性回歸 你要找一條最適合資料的直線時,梯度下降可以一點一點把參數調到更好的位置。

神經網路訓練 深度學習裡的大多數權重更新,本質上都是梯度下降在工作。

算法與應用

核心三件事是梯度、學習率和損失函數,這三個要一起看。 步伐太大會震盪,太小會很慢,所以調學習率幾乎是每次訓練都會做的事。

情境判斷

Q1: 損失一直掉得很慢,第一個會懷疑什麼? → 先看學習率是不是太小,或者特徵和模型是否太保守。

Q2: 訓練到一半損失忽上忽下,會想到什麼? → 可能學習率太高,或批次太小導致更新太晃。

梯度下降 在 iPAS 考試中的重點

根據歷年統計,梯度下降 相關題目 平均佔 AI 技術類考題 8%, 屬於高頻考範圍。

常見出題方向:優化演算法比較(40%)、梯度下降原理(40%)、演算法效率評估(20%)。

相關術語

常見問題

梯度下降一定會找到全域最小值嗎?

不一定,尤其在非凸問題上可能卡在局部最小值或鞍點。

學習率越大越好嗎?

不是,太大會震盪甚至發散。

什麼時候要用批次梯度下降?

當你想要比較穩定的更新,而且資料量和算力允許時。

資料來源

← 回到 梯度下降 快查頁

測驗你對 梯度下降 的理解

透過模擬考系統檢驗學習成果

開始測驗