你要把模型塞進手機或小 GPU 時,會不會第一個想到把權重變小一點?
你可以把量化想成把數字用更省空間的方式保存,讓模型更輕、更快。 它常用在推論階段,目的就是降低記憶體占用和運算成本。
你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。
容易混淆
量化 vs 剪枝 量化是把數值精度壓低。 剪枝是把不重要的連結移除。 最關鍵的區別:一個改數字表示,一個改模型結構。
量化 vs LoRA LoRA 是低秩適配的方法。 量化是壓縮模型數值精度的方法。 最關鍵的區別:一個是訓練方法,一個是壓縮方法。
量化 vs 混合精度訓練 混合精度訓練是在訓練時混用不同精度。 量化通常是把模型壓到較低精度以利部署。 最關鍵的區別:一個偏訓練,一個偏部署。
記住這句就好
把數字壓得更小,模型就更省空間。
實際案例
手機部署 語音辨識模型如果要跑在手機上,量化常是先考慮的降本方法。 它能讓模型更容易放進有限記憶體。
雲端推論 線上服務如果想降低 GPU 記憶體壓力,常會先評估 8 位元或 4 位元量化。 這有時也能讓吞吐量更好。
算法與應用
量化常分為訓練後量化和量化感知訓練,前者較快,後者通常精度更穩。 位元數越低,模型越省,但誤差也越容易累積。 實務上常拿它和剪枝、蒸餾一起做模型壓縮。
情境判斷
Q1(直覺題): 你想讓模型更省記憶體,但又不想重訓整個模型,先考慮什麼?
→ 先考慮量化,因為它是最直接的壓縮手段之一。
Q2(判斷題): 量化位元數越低就一定越好嗎?
→ 不一定,位元數越低雖然越省,但準度掉太多時就不划算,要看部署目標。
常見問題
量化一定會掉準度嗎?
有可能,但幅度取決於位元數、模型結構和任務本身。
推論一定會變快嗎?
通常會變快或變省,但實際效果也要看硬體是否支援。
量化和壓縮是不是同一件事?
量化是壓縮的一種方式,壓縮還包含剪枝、蒸餾等做法。