隨機梯度下降 是什麼?

Stochastic Gradient Descent — 隨機梯度下降 的完整解釋

隨機梯度下降(SGD)是一種迭代優化算法,用於最小化目標函數。它每次迭代僅使用一個或少量樣本計算梯度,加速訓練過程,但可能導致收斂不穩定。

容易混淆

隨機梯度下降 vs 梯度下降 隨機梯度下降:偏向 讓模型學習、更新與驗收 梯度下降:偏向 更完整的梯度下降家族 最關鍵的區別:隨機梯度下降看的是「讓模型學習、更新與驗收」,梯度下降看的是「更完整的梯度下降家族」。

隨機梯度下降 vs 學習率 隨機梯度下降:偏向 讓模型學習、更新與驗收 學習率:偏向 更新步伐的大小設定 最關鍵的區別:隨機梯度下降看的是「讓模型學習、更新與驗收」,學習率看的是「更新步伐的大小設定」。

記住這句就好

有答案、會更新、看泛化。

實際案例

案例:用標答案資料訓練垃圾郵件分類器 訓練時看標籤,部署時只看新郵件內容

案例:先保留一批沒看過的資料來驗收模型 這樣才能知道它是真的會做,還是只會背題

算法與應用

先看資料,再更新參數,最後看驗證或測試表現 學習率、批次大小和損失函數,常一起決定收斂速度 重點不是背熟訓練集,而是遇到新資料也能做對

情境判斷

Q1(直覺題): 資料很多又想先跑起來,這類方法適不適合? → 適合,尤其是你已經有標答案資料,想先做一版可用模型時。

Q2(判斷題): 資料很少但每一步都要很穩,這類方法一定是最佳解嗎? → 看情況,資料少時通常還要配合正則化、驗證策略或其他方法,不能只靠同一招。

相關術語

常見問題

這類方法什麼時候最值得用?

當你有標答案資料,而且想要穩定做預測、分類或評估時,最值得用。

什麼情況下要先換方法,不要硬調參?

如果資料太少、標籤品質很差,或任務本身不適合這種學習方式,先換策略通常更有效。

它和盲目背題有什麼不同?

好方法追求泛化,不是把訓練資料背熟;一旦新資料出現,還能不能做對才是重點。