VG（梯度消失）是什麼？完整定義與解說

深度學習模型訓練

你有沒有看過訊息一層層傳下去，結果越傳越小聲？ 你可以把梯度消失想成「模型往前傳很深時，學習訊號越傳越弱」這會讓前面的層幾乎學不到東西，訓練就卡住在很深的神經網路裡，這是常見的訓練問題

你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

容易混淆

梯度消失 vs 梯度爆炸 梯度消失是訊號太小梯度爆炸是訊號太大最關鍵的區別：太弱和太強

梯度消失 vs 欠擬合 梯度消失是訓練上的病灶欠擬合是結果現象最關鍵的區別：原因層和結果層不同

梯度消失 vs 學習率太小 學習率太小會讓更新步伐慢梯度消失是反向傳播訊號本身變弱最關鍵的區別：步伐小和訊號小不是同一件事

記住這句就好

訊號一層層變小，前面的層就學不動。

實際案例

很深的序列模型 舊式 RNN 在長序列上常因梯度消失而學不到前面的資訊

深層網路訓練 前幾層權重幾乎不更新，模型就只剩後面幾層在學

算法與應用

| 飽和激活函數 | 像 sigmoid 容易把梯度壓小 | 深網常出問題 | | 反向傳播 | 誤差信號一路往前傳 | 傳到前面時可能太弱 | | 殘差設計 | 讓訊息有捷徑可走 | 可減輕問題 | | 梯度裁剪 | 主要是防爆炸，不是專治消失 | 不要混在一起 |

情境判斷

Q1（直覺題）： 深層模型訓練到前面幾層幾乎不更新，先懷疑什麼？

先懷疑梯度消失，因為訊號可能傳不到前層。

Q2（判斷題）： 把學習率調大就能解掉梯度消失嗎？

不一定，因為問題在梯度本身變小，不只是更新步伐。

常見問題

梯度消失只會出現在 RNN 嗎？

不是，深層前饋網路和 Transformer 某些設定也可能遇到。

殘差連接為什麼有幫助？

它提供更直接的訊息路徑，讓訊號不必完全靠長鏈路傳遞。

ReLU 可以改善嗎？

常常有幫助，因為它比較不容易在某些區域把梯度壓得太小。

範例考題

某團隊訓練深層神經網路模型時，發現訓練誤差長時間幾乎不下降，模型參數更新幅度極小，呈現學習停滯現象。若研判問題與梯度傳遞效率有關，下列何者最適合的改善策略？

A. 延長模型訓練時間，使模型有更多機會調整參數
B. 增加訓練樣本數量，以提升模型學習能力
C. 調整模型中的啟動函數設定，以改善訓練過程的穩定性 ✓ 正確答案
D. 簡化模型結構，以降低模型過度擬合的可能性

解析：

訓練誤差不下降且參數更新幅度極小，與梯度傳遞效率有關，這是梯度消失問題的典型症狀。調整啟動函數（如從 Sigmoid 改為 ReLU）能有效改善梯度傳遞，解決梯度消失問題。