GD（梯度下降）是什麼？完整定義與解說

不是，太大會震盪甚至發散。

你有沒有想過，模型是怎麼一步一步把錯誤壓下來的？

你可以把梯度下降想成沿著山坡往低處走的過程。它會根據損失函數的斜率調整參數，讓模型慢慢往更好的答案靠近。

你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

容易混淆

梯度下降 vs 隨機梯度下降 梯度下降每次看整批資料隨機梯度下降每次看較小的資料片段最關鍵的區別是穩定慢，還是快但抖

梯度下降 vs 最小平方法 梯度下降是迭代式優化最小平方法是直接求解析解的路徑最關鍵的區別是反覆逼近，還是一次算出來

沿著最陡方向往山谷走，慢慢修正。

線性回歸 你要找一條最適合資料的直線時，梯度下降可以一點一點把參數調到更好的位置。

神經網路訓練 深度學習裡的大多數權重更新，本質上都是梯度下降在工作。

核心三件事是梯度、學習率和損失函數，這三個要一起看。步伐太大會震盪，太小會很慢，所以調學習率幾乎是每次訓練都會做的事。

Q1： 損失一直掉得很慢，第一個會懷疑什麼？ → 先看學習率是不是太小，或者特徵和模型是否太保守。

Q2： 訓練到一半損失忽上忽下，會想到什麼？ → 可能學習率太高，或批次太小導致更新太晃。

出題方向：常考梯度下降的概念、學習率影響，以及和最小平方法的差異。 題目： 某模型在訓練時，透過反覆修正參數來讓損失函數下降，這最符合哪個概念？ → 答案： 梯度下降。它的核心就是根據梯度方向持續更新參數，讓誤差逐步變小。

梯度下降一定會找到全域最小值嗎？

不一定，尤其在非凸問題上可能卡在局部最小值或鞍點。

學習率越大越好嗎？

不是，太大會震盪甚至發散。

什麼時候要用批次梯度下降？

當你想要比較穩定的更新，而且資料量和算力允許時。