你有沒有想過,模型是怎麼一步一步把錯誤壓下來的?
你可以把梯度下降想成沿著山坡往低處走的過程。 它會根據損失函數的斜率調整參數,讓模型慢慢往更好的答案靠近。
你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。
容易混淆
梯度下降 vs 隨機梯度下降 梯度下降每次看整批資料 隨機梯度下降每次看較小的資料片段 最關鍵的區別是穩定慢,還是快但抖
梯度下降 vs 最小平方法 梯度下降是迭代式優化 最小平方法是直接求解析解的路徑 最關鍵的區別是反覆逼近,還是一次算出來
記住這句就好
沿著最陡方向往山谷走,慢慢修正。
實際案例
線性回歸 你要找一條最適合資料的直線時,梯度下降可以一點一點把參數調到更好的位置。
神經網路訓練 深度學習裡的大多數權重更新,本質上都是梯度下降在工作。
算法與應用
核心三件事是梯度、學習率和損失函數,這三個要一起看。 步伐太大會震盪,太小會很慢,所以調學習率幾乎是每次訓練都會做的事。
情境判斷
Q1: 損失一直掉得很慢,第一個會懷疑什麼? → 先看學習率是不是太小,或者特徵和模型是否太保守。
Q2: 訓練到一半損失忽上忽下,會想到什麼? → 可能學習率太高,或批次太小導致更新太晃。
iPAS 考題
出題方向:常考梯度下降的概念、學習率影響,以及和最小平方法的差異。 題目: 某模型在訓練時,透過反覆修正參數來讓損失函數下降,這最符合哪個概念? → 答案: 梯度下降。它的核心就是根據梯度方向持續更新參數,讓誤差逐步變小。
常見問題
梯度下降一定會找到全域最小值嗎?
不一定,尤其在非凸問題上可能卡在局部最小值或鞍點。
學習率越大越好嗎?
不是,太大會震盪甚至發散。
什麼時候要用批次梯度下降?
當你想要比較穩定的更新,而且資料量和算力允許時。