模型量化是什麼？

Quantization — 模型量化的完整解釋

模型量化是一種降低模型大小和加速推論的技術，透過減少模型權重和激活值的精度來實現。

容易混淆

量化 vs 剪枝 量化是把數值精度壓低。剪枝是把不重要的連結移除。最關鍵的區別：一個改數字表示，一個改模型結構。

量化 vs LoRA LoRA 是低秩適配的方法。量化是壓縮模型數值精度的方法。最關鍵的區別：一個是訓練方法，一個是壓縮方法。

量化 vs 混合精度訓練 混合精度訓練是在訓練時混用不同精度。量化通常是把模型壓到較低精度以利部署。最關鍵的區別：一個偏訓練，一個偏部署。

記住這句就好

把數字壓得更小，模型就更省空間。

實際案例

手機部署 語音辨識模型如果要跑在手機上，量化常是先考慮的降本方法。它能讓模型更容易放進有限記憶體。

雲端推論 線上服務如果想降低 GPU 記憶體壓力，常會先評估 8 位元或 4 位元量化。這有時也能讓吞吐量更好。

算法與應用

量化常分為訓練後量化和量化感知訓練，前者較快，後者通常精度更穩。位元數越低，模型越省，但誤差也越容易累積。實務上常拿它和剪枝、蒸餾一起做模型壓縮。

情境判斷

Q1（直覺題）： 你想讓模型更省記憶體，但又不想重訓整個模型，先考慮什麼？

→ 先考慮量化，因為它是最直接的壓縮手段之一。

Q2（判斷題）： 量化位元數越低就一定越好嗎？

→ 不一定，位元數越低雖然越省，但準度掉太多時就不划算，要看部署目標。

常見問題

量化一定會掉準度嗎？

有可能，但幅度取決於位元數、模型結構和任務本身。

推論一定會變快嗎？

通常會變快或變省，但實際效果也要看硬體是否支援。

量化和壓縮是不是同一件事？

量化是壓縮的一種方式，壓縮還包含剪枝、蒸餾等做法。

← 回到模型量化快查頁

模型量化是什麼？

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

相關術語

相關術語

常見問題

量化一定會掉準度嗎？

推論一定會變快嗎？

量化和壓縮是不是同一件事？

模型量化 是什麼？

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

相關術語

相關術語

常見問題

量化一定會掉準度嗎？

推論一定會變快嗎？

量化和壓縮是不是同一件事？

模型量化是什麼？