iPAS AI 應用規劃師中級　科目三　機器學習技術與應用

哪種優化演算法內建動量機制？

原題 17

下列哪一種優化演算法內建動量（Momentum）的設計機制？

白話

深度學習訓練時需要一個「優化演算法」來決定每次更新模型參數的方式。動量（Momentum）是一種讓更新方向考慮「過去累積趨勢」的機制，有些優化演算法在設計上就把動量機制內建進去了。

題目列了四種不同的優化演算法：SGD+Momentum、Adam、RMSProp、Adagrad。

問你：其中哪一個在演算法設計上「內建」了動量機制？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

四個選項中，Adam（Adaptive Moment Estimation）在演算法設計上內建了動量機制：Adam 同時維護梯度的一階矩（動量，m）和二階矩（速度，v），其中一階矩就是動量機制的核心，而不只是像 SGD+Momentum 那樣把動量「附加」在標準 SGD 之外。

02　情境

先感受問題：訓練時為什麼需要「慣性」？

「宇捷 AI 研究室」的工程師阿雯在訓練一個語言模型。她注意到用純粹的隨機梯度下降（SGD），每次更新方向都在抖動：某個方向連續下降，但偶爾一個噪音樣本讓梯度反方向走，訓練損失的曲線像心電圖一樣鋸齒狀。

她想要的效果是：「如果連續幾步都往同一個方向走，就要加速前進；如果忽然要轉方向，就要慢下來確認。」這就是動量機制的直覺。

動量讓優化器有「慣性」：過去的梯度方向會影響當前的更新，不容易被單一異常樣本帶偏方向。

03　對照

純 SGD 沒有動量的問題

更新方向受單一樣本的噪音影響大：每個 Mini-batch 梯度估計都有隨機誤差，純 SGD 的更新路徑因此鋸齒狀搖擺，無法沿最佳方向穩定前進。
在鞍點（Saddle Point）容易卡住：某個方向梯度為零，純 SGD 不知道往哪走，動量可以「靠慣性」衝過鞍點繼續前進。
收斂速度慢：如果最佳方向是某個對角線方向，純 SGD 會在垂直方向震盪，只有對角方向的少量分量真的在推進，浪費計算。
對學習率設定敏感：學習率稍大就震盪，稍小就太慢，難以找到最佳平衡點。有動量的演算法通常對學習率的選擇更寬容。
難以跳出局部最小值：局部最小值附近梯度接近零，純 SGD 容易停在那裡，動量的慣性有時能幫助跳脫。

04　解法

Adam 怎麼內建動量機制

阿雯最後選擇了 Adam 優化器。Adam 的設計結合了兩個機制：

第一個機制（動量）：維護梯度的指數移動平均（m），這就是動量機制。m 記錄的是「過去梯度的加權累積」，讓更新方向有慣性，不容易被單一噪音樣本帶偏。

第二個機制（自適應學習率）：維護梯度平方的指數移動平均（v），用來自適應地調整每個參數的有效學習率，梯度變化大的參數自動降低學習率，梯度稀疏的參數自動提高學習率。

Adam = Momentum（動量） + RMSProp（自適應學習率），兩個機制都在演算法的核心設計中，不是外加的附件。

區分重點：SGD+Momentum 是把動量「附加」給 SGD；Adam 是在演算法設計上從一開始就以動量（一階矩）為核心構件之一，動量是 Adam 的 A（Adaptive Moment）中「Moment」的直接體現。

這就是選項 B 講的：Adam。

技術版：Adam、SGD+Momentum、RMSProp、Adagrad 的機制對比

優化演算法（Optimizer）是深度學習訓練的核心組件，決定了模型參數如何根據梯度更新。理解各優化器的機制差異，是中級 ML 從業者的必備知識。

四種優化器的機制對比：

SGD（純隨機梯度下降）：最基本的優化器，每次更新直接用當前梯度乘以學習率，沒有任何記憶或自適應機制。
SGD+Momentum：在 SGD 基礎上「附加」動量項，維護一個速度向量 v，v = β × v_prev + (1-β) × 梯度，更新方向考慮了過去的累積。動量是「外掛」的，不是 SGD 本身的設計。
RMSProp：維護梯度平方的指數移動平均，自適應地調整學習率，解決 Adagrad 學習率持續衰減的問題。沒有動量機制，只有自適應學習率。
Adagrad：累加所有歷史梯度的平方，讓頻繁更新的參數學習率自動降低（適合稀疏特徵）。沒有動量機制，且學習率只減不增，長期訓練時可能學習率降到幾乎為零。
Adam（Adaptive Moment Estimation）：同時維護一階矩（m，梯度的指數移動平均 = 動量）和二階矩（v，梯度平方的指數移動平均 = RMSProp）。動量是 Adam 原生設計的一部分，不是附加的。加上偏差修正（Bias Correction），讓訓練初期估計更準確。

為什麼出題者要考這題：Adam 是目前深度學習最常用的優化器，理解它為什麼「好」（動量 + 自適應學習率），以及它和 SGD+Momentum 的根本差異（設計層次不同），是中級 AI 規劃師理解訓練流程的必要知識。

05　陷阱

為什麼其他選項是錯的

ASGD+Momentum

字面在說什麼

SGD+Momentum 顧名思義就是「SGD 加上動量」，名字裡直接寫了 Momentum。

為什麼不對

題目問的是「內建動量的設計機制」。SGD+Momentum 是把動量「附加」在 SGD 之外，動量是外掛給 SGD 的額外組件。而 Adam 的完整名稱是「Adaptive Moment Estimation（自適應動量估計）」，動量（一階矩，m）是 Adam 演算法核心設計的一部分，不是外加的。官方答案是 B（Adam），因為動量是 Adam 的固有設計，不是附加功能。

誰會選錯

看到「Momentum」這個詞直接在選項 A 的名字裡，就直覺選 A 的人。這是考驗應試者是否真正理解「內建（inherent design）」vs「外加（add-on）」的差異。SGD+Momentum 的動量是後加的，Adam 的動量是本來就有的。

CRMSProp

字面在說什麼

RMSProp（Root Mean Square Propagation）是一種自適應學習率優化器。

為什麼不對

RMSProp 只維護梯度平方的指數移動平均（v），用來自適應地調整學習率。它沒有動量機制（不維護梯度本身的指數移動平均）。事實上，Adam 可以看作 RMSProp + 動量的組合：Adam 在 RMSProp 的基礎上加入了一階矩（動量）。

誰會選錯

把「自適應學習率」和「動量」混為一談的人。自適應學習率（RMSProp）和動量是兩個獨立的概念，Adam 剛好兩個都有，但 RMSProp 只有前者。

DAdagrad

字面在說什麼

Adagrad（Adaptive Gradient）是最早的自適應學習率優化器之一，讓每個參數有不同的學習率。

為什麼不對

Adagrad 累加所有歷史梯度的平方和，讓頻繁更新的參數自動降低學習率。它沒有任何動量機制。而且 Adagrad 的主要缺點是學習率只降不升，長期訓練後學習率可能趨近於零，讓訓練完全停止，這正是 RMSProp 設計來修正的問題。

誰會選錯

對各優化器名稱記憶混亂，把 Adagrad 和 Adam 混淆的人。Adagrad 和 Adam 都含有「Ada」字首，都屬於自適應系列，但 Adagrad 沒有動量，Adam 才有。

06　變形

同個考點下次怎麼變形

變形 1

Adam 的完整名稱是什麼？名稱本身怎麼反映它的機制？

直覺

Adam 就是個人名，有更深的含義嗎？

答案

Adam = Adaptive Moment Estimation（自適應動量估計）。「Moment」就是統計學中的矩（moment）：一階矩是均值（梯度的指數移動平均 = 動量），二階矩是方差（梯度平方的指數移動平均 = RMSProp 的核心）。「Adaptive」則指每個參數的有效學習率是自動調整的，不是固定的。

變形 2

Adam 在什麼情況下不一定比 SGD 好？

直覺

Adam 是那麼多人的預設選擇，是不是永遠是最好的？

答案

在圖像分類（ResNet、VGG）等任務上，有研究發現帶 Warmup 和 Cosine Decay 的 SGD+Momentum 最終收斂到的解泛化能力更好（雖然訓練初期 Adam 更快）。原因推測：Adam 的自適應機制在有規律梯度的任務上可能引入過多複雜性，有時會收斂到「更窄的局部最小值」，泛化較差。實務上，快速迭代實驗用 Adam，最終效能優化可以嘗試換 SGD。

變形 3

AdamW 和 Adam 的差別是什麼？

直覺

大型語言模型（如 GPT）訓練時常看到「AdamW」，它和 Adam 有什麼不同？

答案

AdamW（Adam with Weight Decay）修正了 Adam 的正則化方式。原始 Adam 把 L2 正則化加在梯度上（相當於縮小學習率），但研究發現這在自適應學習率下效果和標準 L2 不等價。AdamW 把權重衰減（Weight Decay）直接應用在參數更新上，而不是通過梯度，讓正則化效果更符合預期。大多數現代 LLM 訓練都用 AdamW。

變形 4

動量係數 β 的典型值是多少？它越大代表什麼？

直覺

動量有一個「強度」設定，值越大慣性越強，那 β 設多少合適？

答案

Adam 中一階矩的衰減係數 β₁ 典型值是 0.9，二階矩 β₂ 典型值是 0.999。β₁ 越大代表歷史梯度的影響越持久（慣性越強），更新方向更穩定但反應更慢；β₁ 越小代表更新更快速響應當前梯度，但也更容易受噪音影響。0.9 是實驗上發現最常能良好泛化的預設值。

變形 5

Adagrad 為什麼在深度學習中被 RMSProp 取代？

直覺

Adagrad 是第一個自適應學習率優化器，為什麼現在很少用？

答案

Adagrad 累加所有歷史梯度平方，分母只增不減，導致有效學習率在訓練中持續下降，最終趨近於零，讓模型停止學習。RMSProp 用指數移動平均（只考慮近期梯度的加權）來替代累加，讓分母維持在合理範圍，有效學習率不會無限縮小。Adagrad 仍適合稀疏資料（如 NLP 詞頻矩陣），但深度學習一般用 RMSProp 或 Adam。

07　延伸

想再往下看，這 5 個

梯度下降（Gradient Descent）所有優化演算法的基礎，Adam 和 SGD 都是梯度下降的不同改進版本，動量機制是梯度下降路徑的穩定化手段。
隨機梯度下降（SGD）最基本的優化器，Adam 是在 SGD 的基礎上加入動量和自適應學習率後演化而來的，理解 SGD 是理解 Adam 的前提。
學習率（Learning Rate）Adam 的自適應機制會為每個參數動態調整有效學習率，解決了固定學習率的主要問題。
學習率排程（Learning Rate Scheduling）Adam 雖然有自適應學習率，實務上仍常搭配 Warmup 和 Cosine Decay 等排程策略進一步穩定訓練。
過擬合（Overfitting）優化器的選擇會影響模型收斂到的解的泛化能力，Adam 有時會收斂到泛化較差的解，是選擇優化器時的重要考量。