---
title: "梯度裁剪（Gradient Clipping）"
slug: gradient-clipping
language: zh-TW
source: https://aiterms.tw/terms/gradient-clipping
updated_at: 2026-04-29
tags: [深度學習, 神經網路, 模型訓練, 最佳化]
ipas_term: false
---

# 梯度裁剪（Gradient Clipping）

> **你有沒有遇過模型一下子學太猛，結果整個訓練發散？**
>
> 你可以把梯度裁剪想成在更新前先幫梯度踩煞車。
> 它不是讓模型變聰明，而是避免一次更新太大，把訓練直接衝壞。
>
> 你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

### 容易混淆

> **梯度裁剪 vs 梯度消失**
> 梯度消失是梯度太小，模型學不動
> 梯度裁剪是梯度太大，模型更新太猛
> 最關鍵的區別是太小，還是太大
>
> **梯度裁剪 vs 降低學習率**
> 降低學習率是整體縮小步伐
> 梯度裁剪是只在梯度超標時動手
> 最關鍵的區別是全局變慢，還是局部止血
>
### 記住這句就好

> 太大的梯度先按住再更新。

### 實際案例

> **RNN 訓練**
> 序列模型很容易出現梯度爆炸，梯度裁剪可以讓訓練過程穩定很多。
>
> **大批次訓練**
> 批次太大或資料分布不穩時，梯度偶爾會飆高，裁剪可以避免一次更新把模型帶偏。
>
### 算法與應用

> 常見做法是設定梯度範數上限，超過就把整體縮放回來。
> 它處理的是穩定性，不是資料品質問題，所以通常要和其他方法一起用。

### 情境判斷

> **Q1：** 訓練中梯度 norm 常常暴衝，第一個想到什麼？
> → 先加梯度裁剪，再看學習率和資料是否也要調整。
>
> **Q2：** 訓練雖穩但一直不收斂，裁剪會是唯一解嗎？
> → 不會，還要看學習率、模型架構和損失函數是否合理。
>
### 常見問題

> **Q：裁剪會不會傷害表現？**
> 會，裁太狠可能讓模型學得保守。
>
> **Q：閾值怎麼選？**
> 通常要用驗證集試，沒有萬用數字。
>
> **Q：它能取代所有穩定技巧嗎？**
> 不能，常要和正則化、早停法一起配合。
>
### 相關術語

> - **梯度下降**：裁剪是為了讓更新步伐更穩
> - **梯度爆炸**：先知道問題本身，才知道為什麼要裁剪
> - **梯度消失**：對照看，能更快分辨兩種訓練失敗模式
> - **損失函數**：梯度來自這裡，理解來源才知道為什麼會失控
> - **批次大小**：訓練波動和批次設定常一起出現

---

來源：https://aiterms.tw/terms/gradient-clipping
快查頁：https://aiterms.tw/terms/gradient-clipping
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-gradient-clipping