---
title: "模型量化（Quantization）"
slug: quantization
language: zh-TW
source: https://aiterms.tw/terms/quantization
updated_at: 2026-04-29
tags: [機器學習, 深度學習, 模型部署, 最佳化, 神經網路, AI應用, MLOps]
ipas_term: false
---

# 模型量化（Quantization）

> **你要把模型塞進手機或小 GPU 時，會不會第一個想到把權重變小一點？**
>
> 你可以把量化想成把數字用更省空間的方式保存，讓模型更輕、更快。
> 它常用在推論階段，目的就是降低記憶體占用和運算成本。
>
> 你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

### 容易混淆
> **量化 vs 剪枝**
> 量化是把數值精度壓低。
> 剪枝是把不重要的連結移除。
> 最關鍵的區別：一個改數字表示，一個改模型結構。
>
> **量化 vs LoRA**
> LoRA 是低秩適配的方法。
> 量化是壓縮模型數值精度的方法。
> 最關鍵的區別：一個是訓練方法，一個是壓縮方法。
>
> **量化 vs 混合精度訓練**
> 混合精度訓練是在訓練時混用不同精度。
> 量化通常是把模型壓到較低精度以利部署。
> 最關鍵的區別：一個偏訓練，一個偏部署。

### 記住這句就好
> 把數字壓得更小，模型就更省空間。

### 實際案例
> **手機部署**
> 語音辨識模型如果要跑在手機上，量化常是先考慮的降本方法。
> 它能讓模型更容易放進有限記憶體。
>
> **雲端推論**
> 線上服務如果想降低 GPU 記憶體壓力，常會先評估 8 位元或 4 位元量化。
> 這有時也能讓吞吐量更好。

### 算法與應用
> 量化常分為訓練後量化和量化感知訓練，前者較快，後者通常精度更穩。
> 位元數越低，模型越省，但誤差也越容易累積。
> 實務上常拿它和剪枝、蒸餾一起做模型壓縮。

### 情境判斷
> **Q1（直覺題）：** 你想讓模型更省記憶體，但又不想重訓整個模型，先考慮什麼？
>
> → 先考慮量化，因為它是最直接的壓縮手段之一。
>
> **Q2（判斷題）：** 量化位元數越低就一定越好嗎？
>
> → 不一定，位元數越低雖然越省，但準度掉太多時就不划算，要看部署目標。

### 常見問題
> **Q：量化一定會掉準度嗎？**
> 有可能，但幅度取決於位元數、模型結構和任務本身。
>
> **Q：推論一定會變快嗎？**
> 通常會變快或變省，但實際效果也要看硬體是否支援。
>
> **Q：量化和壓縮是不是同一件事？**
> 量化是壓縮的一種方式，壓縮還包含剪枝、蒸餾等做法。

### 相關術語
> - **模型壓縮**：先看整個瘦身工具箱，量化是裡面很常見的一種。
> - **推論最佳化**：量化常是推論最佳化的第一步。
> - **混合精度訓練**：先分清訓練和部署的精度策略，才不會混在一起。
> - **GPU**：硬體支援會直接影響量化值不值得做。
> - **TPU**：有些硬體對低精度運算特別友善。

---

來源：https://aiterms.tw/terms/quantization
快查頁：https://aiterms.tw/terms/quantization
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-quantization