---
title: "知識蒸餾（Knowledge Distillation）"
slug: knowledge-distillation
language: zh-TW
source: https://aiterms.tw/terms/knowledge-distillation
updated_at: 2026-04-29
tags: [深度學習, 模型訓練, 模型部署, 遷移學習]
ipas_term: false
---

# 知識蒸餾（Knowledge Distillation）

> **如果大模型很強，但你只能把它放到手機或邊緣裝置上，怎麼辦？**
>
> 你可以把它想成讓小模型向大模型學習，不是學完全部知識，而是學到做事的方法。
>
> 知識蒸餾是一種模型壓縮技術，透過讓小模型模仿大模型的輸出，使其在保有精準度的同時，大幅縮減模型體積
>
> 你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

### 容易混淆
> **模型剪枝**
> 剪枝是把現有模型的一部分拿掉，蒸餾是重新訓練一個更小的學生模型。
>
> **量化**
> 量化是在改數值精度，蒸餾是在改模型的學習來源。

### 記住這句就好
> 老師教學生，小模型模仿大模型。

### 實際案例
> **手機語音辨識**
> 把雲端大模型的輸出分佈轉給小模型學，手機端就能更快回應。
>
> **邊緣攝影機**
> 監視器只能跑小模型時，蒸餾能讓它保留接近大模型的判斷能力。

### 算法與應用
> 蒸餾常用 soft label、temperature 和 teacher-student 架構。學生模型不一定要一模一樣地學老師，而是學老師對不同答案的相對偏好，這常比只學硬標籤更有效。

### 情境判斷
> **Q1（直覺題）：** 如果你現在遇到一個 手機語音辨識 的場景，這個概念會是第一個想到的工具嗎？
> → 看情況，但如果任務目標和這個概念的用途一致，就很可能是。核心還是先確認你要解決的是分類、分群、壓縮、檢索，還是最佳化。
>
> **Q2（判斷題）：** 如果你把它和 量化 一起用，結果反而變不穩，通常該怎麼想？
> → 看情況。先檢查資料分布、特徵定義和模型假設是否相容，很多時候不是概念本身有問題，而是使用條件不對，像距離尺度沒對齊、標註規則不一致，或輸入格式不合。

### 常見問題
> **Q：知識蒸餾 最容易跟 模型剪枝 混淆嗎？**
> 剪枝是把現有模型的一部分拿掉，蒸餾是重新訓練一個更小的學生模型。
>
> **Q：什麼情況會用到 知識蒸餾？**
> 你可以把它想成讓小模型向大模型學習，不是學完全部知識，而是學到做事的方法。 實務上只要你要處理和這個概念相符的任務，就會用到它。
>
> **Q：初學者最常錯在哪裡？**
> 量化是在改數值精度，蒸餾是在改模型的學習來源。

### 相關術語
> - **深度學習**：讀完這個後，接著看它，可以把 知識蒸餾 放回更完整的系統脈絡裡。
> - **遷移學習**：讀完這個後，接著看它，可以把 知識蒸餾 放回更完整的系統脈絡裡。
> - **微調**：讀完這個後，接著看它，可以把 知識蒸餾 放回更完整的系統脈絡裡。
> - **過擬合**：讀完這個後，接著看它，可以把 知識蒸餾 放回更完整的系統脈絡裡。

---

來源：https://aiterms.tw/terms/knowledge-distillation
快查頁：https://aiterms.tw/terms/knowledge-distillation
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-knowledge-distillation