MP（模型平行化）是什麼？完整定義與解說

Q: 模型平行化只能用在訓練嗎？

不是，推論也能用，尤其是超大模型。

Q: 它和資料平行化可以一起用嗎？

可以，很多大模型訓練會混合使用。

Q: 最難的是什麼？

通常是切分策略和通訊開銷。

深度學習模型訓練

你有沒有碰過模型太大，一張 GPU 根本裝不下？

你可以把模型平行化想成，把同一個模型拆到多個裝置一起算，讓超大模型也能訓練或推論。它重要在於，當模型規模超過單卡能力時，這就是把任務分攤出去的關鍵手段。

你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

容易混淆

模型平行化 vs 資料平行化

模型平行化：把模型切開，分散到多個裝置。資料平行化：把資料切開，每個裝置跑同一份模型。最關鍵的區別：前者分模型，後者分資料。

模型平行化 vs 分散式訓練

模型平行化：是其中一種分散方式。分散式訓練：是更大的總稱，包含多種平行策略。最關鍵的區別：前者是方法，後者是整體架構。

記住這句就好

模型太大就切開，不要硬塞一張卡。

實際案例

超大語言模型訓練

某些層放在這張 GPU，另一些層放在另一張 GPU，前向和反向傳播時一起協作。

記憶體爆掉的推論

當單卡顯存不夠，模型切分後就能在多卡上完成一次推論。

算法與應用

常見形式包括張量切分、流水線切分和層切分。核心挑戰是通訊成本，切太細反而會被資料交換拖慢。在大模型時代，模型平行化常和資料平行化一起使用。

情境判斷

Q1（情境題）： 如果模型很大但資料不多，還需要模型平行化嗎？

→ 可能需要。只要單卡裝不下或算不動，即使資料不多也可能要用。

Q2（情境題）： 模型平行化一定比資料平行化難嗎？

→ 多半是。因為模型拆分後的通訊和同步更複雜。

常見問題

模型平行化只能用在訓練嗎？

不是，推論也能用，尤其是超大模型。

它和資料平行化可以一起用嗎？

可以，很多大模型訓練會混合使用。

最難的是什麼？

通常是切分策略和通訊開銷。

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

常見問題

相關術語

延伸學習

資料來源與參考依據