MLM（遮蔽語言模型）是什麼？完整定義與解說

你有沒有做過填空題，少掉幾個字也還是能猜出整句意思？ 你可以把遮蔽語言模型想成，先把句子挖空，再讓模型把空格填回來。它其實就是透過預測被遮蔽的詞來學語言。這種方式很適合學上下文和雙向語意。

你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

容易混淆

MLM vs 因果語言模型 MLM 看雙向上下文，因果語言模型通常只看前文。一個像整句填空，一個像接龍。

MLM vs 完形填空任務 完形填空是題型，MLM 是訓練方法。一個是考試形式，一個是學習方式。

最關鍵的區別： 題型和訓練方法不是同一件事。

先把字挖掉，再逼模型補回來。

BERT 預訓練 BERT 就常用 MLM 學到雙向上下文，讓它更懂句子語意。

文字理解模型 當你要做分類或檢索前的表徵學習，MLM 很常是前置訓練任務。

常見做法是隨機遮住部分 token，讓模型根據左右文預測原詞。因為能看左右兩邊，它比單向接龍更擅長理解語境。這也是 BERT 類模型的重要預訓練任務。

Q1（直覺題）： 句子中間少掉一個詞，模型要根據前後文猜回來，這像什麼任務？

這就是遮蔽語言模型的典型訓練方式。

Q2（判斷題）： 只要是填空題，就一定代表模型用了 MLM 嗎？

不一定，填空是題型，MLM 是一種訓練策略。

MLM 為什麼能學雙向語意？

因為它在預測空格時可以同時看左邊和右邊的上下文。

MLM 一定要遮很多字嗎？

不一定，遮太多會太難，遮太少又學不到足夠上下文。

MLM 和 BERT 有什麼關係？

BERT 最經典的預訓練方式之一就是 MLM。