梯度下降 是什麼?
Gradient Descent — 梯度下降 的完整解釋
梯度下降是一種透過反覆運算,沿損失函數的梯度方向,逐步逼近損失函數最小值的演算法
容易混淆
梯度下降 vs 隨機梯度下降 梯度下降每次看整批資料 隨機梯度下降每次看較小的資料片段 最關鍵的區別是穩定慢,還是快但抖
梯度下降 vs 最小平方法 梯度下降是迭代式優化 最小平方法是直接求解析解的路徑 最關鍵的區別是反覆逼近,還是一次算出來
記住這句就好
沿著最陡方向往山谷走,慢慢修正。
實際案例
線性回歸 你要找一條最適合資料的直線時,梯度下降可以一點一點把參數調到更好的位置。
神經網路訓練 深度學習裡的大多數權重更新,本質上都是梯度下降在工作。
算法與應用
核心三件事是梯度、學習率和損失函數,這三個要一起看。 步伐太大會震盪,太小會很慢,所以調學習率幾乎是每次訓練都會做的事。
情境判斷
Q1: 損失一直掉得很慢,第一個會懷疑什麼? → 先看學習率是不是太小,或者特徵和模型是否太保守。
Q2: 訓練到一半損失忽上忽下,會想到什麼? → 可能學習率太高,或批次太小導致更新太晃。
梯度下降 在 iPAS 考試中的重點
根據歷年統計,梯度下降 相關題目 平均佔 AI 技術類考題 8%, 屬於高頻考範圍。
常見出題方向:優化演算法比較(40%)、梯度下降原理(40%)、演算法效率評估(20%)。
相關術語
常見問題
梯度下降一定會找到全域最小值嗎?
不一定,尤其在非凸問題上可能卡在局部最小值或鞍點。
學習率越大越好嗎?
不是,太大會震盪甚至發散。
什麼時候要用批次梯度下降?
當你想要比較穩定的更新,而且資料量和算力允許時。
資料來源
- iPAS AI 應用規劃師評鑑內容範圍參考(115.02) — 經濟部產業人才能力鑑定