KD（知識蒸餾）是什麼？完整定義與解說

Q: 什麼情況會用到 知識蒸餾？

你可以把它想成讓小模型向大模型學習，不是學完全部知識，而是學到做事的方法。 實務上只要你要處理和這個概念相符的任務，就會用到它。

如果大模型很強，但你只能把它放到手機或邊緣裝置上，怎麼辦？

你可以把它想成讓小模型向大模型學習，不是學完全部知識，而是學到做事的方法。

知識蒸餾是一種模型壓縮技術，透過讓小模型模仿大模型的輸出，使其在保有精準度的同時，大幅縮減模型體積

你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

容易混淆

模型剪枝 剪枝是把現有模型的一部分拿掉，蒸餾是重新訓練一個更小的學生模型。

量化量化是在改數值精度，蒸餾是在改模型的學習來源。

記住這句就好

老師教學生，小模型模仿大模型。

實際案例

手機語音辨識 把雲端大模型的輸出分佈轉給小模型學，手機端就能更快回應。

邊緣攝影機 監視器只能跑小模型時，蒸餾能讓它保留接近大模型的判斷能力。

算法與應用

蒸餾常用 soft label、temperature 和 teacher-student 架構。學生模型不一定要一模一樣地學老師，而是學老師對不同答案的相對偏好，這常比只學硬標籤更有效。

情境判斷

Q1（直覺題）： 如果你現在遇到一個手機語音辨識的場景，這個概念會是第一個想到的工具嗎？ → 看情況，但如果任務目標和這個概念的用途一致，就很可能是。核心還是先確認你要解決的是分類、分群、壓縮、檢索，還是最佳化。

Q2（判斷題）： 如果你把它和量化一起用，結果反而變不穩，通常該怎麼想？ → 看情況。先檢查資料分布、特徵定義和模型假設是否相容，很多時候不是概念本身有問題，而是使用條件不對，像距離尺度沒對齊、標註規則不一致，或輸入格式不合。

常見問題

知識蒸餾最容易跟模型剪枝混淆嗎？

剪枝是把現有模型的一部分拿掉，蒸餾是重新訓練一個更小的學生模型。

什麼情況會用到知識蒸餾？

你可以把它想成讓小模型向大模型學習，不是學完全部知識，而是學到做事的方法。實務上只要你要處理和這個概念相符的任務，就會用到它。

初學者最常錯在哪裡？

量化是在改數值精度，蒸餾是在改模型的學習來源。

範例考題

某企業建置檢索增強生成（Retrieval-augmented generation, RAG）系統支援內部知識查詢。隨著使用量提升，團隊發現模型回覆品質穩定，但推論延遲與運算成本逐漸增加。專案規劃在維持回覆品質前提下進行效能優化。在此情境下，若採用知識蒸餾（Knowledge Distillation），下列敘述何者最為合理？

A. 將檢索資料轉換為結構化規則以取代模型
B. 僅透過增加檢索文件數量改善效能
C. 停用生成模型以避免延遲問題
D. 使小型模型學習大型模型行為，以降低推論成本 ✓ 正確答案

解析：

知識蒸餾是讓小型模型（學生模型）學習大型模型（教師模型）的行為與輸出，從而在維持品質的前提下降低推論延遲與運算成本。