知識蒸餾(Knowledge Distillation)是什麼?

知識蒸餾是一種模型壓縮技術,透過讓小模型模仿大模型的輸出,使其在保有精準度的同時,大幅縮減模型體積|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

知識蒸餾(Knowledge Distillation)是什麼? 深度學習模型訓練

如果大模型很強,但你只能把它放到手機或邊緣裝置上,怎麼辦?

你可以把它想成讓小模型向大模型學習,不是學完全部知識,而是學到做事的方法。

知識蒸餾是一種模型壓縮技術,透過讓小模型模仿大模型的輸出,使其在保有精準度的同時,大幅縮減模型體積

你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。

容易混淆

模型剪枝 剪枝是把現有模型的一部分拿掉,蒸餾是重新訓練一個更小的學生模型。

量化 量化是在改數值精度,蒸餾是在改模型的學習來源。

記住這句就好

老師教學生,小模型模仿大模型。

實際案例

手機語音辨識 把雲端大模型的輸出分佈轉給小模型學,手機端就能更快回應。

邊緣攝影機 監視器只能跑小模型時,蒸餾能讓它保留接近大模型的判斷能力。

算法與應用

蒸餾常用 soft label、temperature 和 teacher-student 架構。學生模型不一定要一模一樣地學老師,而是學老師對不同答案的相對偏好,這常比只學硬標籤更有效。

情境判斷

Q1(直覺題): 如果你現在遇到一個 手機語音辨識 的場景,這個概念會是第一個想到的工具嗎? → 看情況,但如果任務目標和這個概念的用途一致,就很可能是。核心還是先確認你要解決的是分類、分群、壓縮、檢索,還是最佳化。

Q2(判斷題): 如果你把它和 量化 一起用,結果反而變不穩,通常該怎麼想? → 看情況。先檢查資料分布、特徵定義和模型假設是否相容,很多時候不是概念本身有問題,而是使用條件不對,像距離尺度沒對齊、標註規則不一致,或輸入格式不合。

常見問題

知識蒸餾 最容易跟 模型剪枝 混淆嗎?

剪枝是把現有模型的一部分拿掉,蒸餾是重新訓練一個更小的學生模型。

什麼情況會用到 知識蒸餾?

你可以把它想成讓小模型向大模型學習,不是學完全部知識,而是學到做事的方法。 實務上只要你要處理和這個概念相符的任務,就會用到它。

初學者最常錯在哪裡?

量化是在改數值精度,蒸餾是在改模型的學習來源。

範例考題

某企業建置檢索增強生成(Retrieval-augmented generation, RAG)系統支援內部知識查詢。隨著使用量提升,團隊發現模型回覆品質穩定,但推論延遲與運算成本逐漸增加。專案規劃在維持回覆品質前提下進行效能優化。在此情境下,若採用知識蒸餾(Knowledge Distillation),下列敘述何者最為合理?

  • A. 將檢索資料轉換為結構化規則以取代模型
  • B. 僅透過增加檢索文件數量改善效能
  • C. 停用生成模型以避免延遲問題
  • D. 使小型模型學習大型模型行為,以降低推論成本 ✓ 正確答案

解析:

知識蒸餾是讓小型模型(學生模型)學習大型模型(教師模型)的行為與輸出,從而在維持品質的前提下降低推論延遲與運算成本。