解析:
訓練誤差不下降且參數更新幅度極小,與梯度傳遞效率有關,這是梯度消失問題的典型症狀。調整啟動函數(如從 Sigmoid 改為 ReLU)能有效改善梯度傳遞,解決梯度消失問題。
梯度消失是指在深度學習模型訓練中,梯度在反向傳播時逐漸縮小至接近於零,導致淺層網路權重難以更新,模型學習停滯。|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。
你有沒有看過訊息一層層傳下去,結果越傳越小聲? 你可以把梯度消失想成「模型往前傳很深時,學習訊號越傳越弱」 這會讓前面的層幾乎學不到東西,訓練就卡住 在很深的神經網路裡,這是常見的訓練問題
你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。
梯度消失 vs 梯度爆炸 梯度消失是訊號太小 梯度爆炸是訊號太大 最關鍵的區別:太弱和太強
梯度消失 vs 欠擬合 梯度消失是訓練上的病灶 欠擬合是結果現象 最關鍵的區別:原因層和結果層不同
梯度消失 vs 學習率太小 學習率太小會讓更新步伐慢 梯度消失是反向傳播訊號本身變弱 最關鍵的區別:步伐小和訊號小不是同一件事
訊號一層層變小,前面的層就學不動。
很深的序列模型 舊式 RNN 在長序列上常因梯度消失而學不到前面的資訊
深層網路訓練 前幾層權重幾乎不更新,模型就只剩後面幾層在學
| 飽和激活函數 | 像 sigmoid 容易把梯度壓小 | 深網常出問題 | | 反向傳播 | 誤差信號一路往前傳 | 傳到前面時可能太弱 | | 殘差設計 | 讓訊息有捷徑可走 | 可減輕問題 | | 梯度裁剪 | 主要是防爆炸,不是專治消失 | 不要混在一起 |
Q1(直覺題): 深層模型訓練到前面幾層幾乎不更新,先懷疑什麼?
Q2(判斷題): 把學習率調大就能解掉梯度消失嗎?
不是,深層前饋網路和 Transformer 某些設定也可能遇到。
它提供更直接的訊息路徑,讓訊號不必完全靠長鏈路傳遞。
常常有幫助,因為它比較不容易在某些區域把梯度壓得太小。
某團隊訓練深層神經網路模型時,發現訓練誤差長時間幾乎不下降,模型參數更新幅度極小,呈現學習停滯現象。若研判問題與梯度傳遞效率有關,下列何者最適合的改善策略?
解析:
訓練誤差不下降且參數更新幅度極小,與梯度傳遞效率有關,這是梯度消失問題的典型症狀。調整啟動函數(如從 Sigmoid 改為 ReLU)能有效改善梯度傳遞,解決梯度消失問題。