遮蔽語言模型是什麼？

Masked Language Model — 遮蔽語言模型的完整解釋

遮蔽語言模型（MLM）是一種自監督學習方法，隨機遮蔽輸入文本的部分詞語，並訓練模型預測這些被遮蔽的詞語。

MLM vs 因果語言模型 MLM 看雙向上下文，因果語言模型通常只看前文。一個像整句填空，一個像接龍。

MLM vs 完形填空任務 完形填空是題型，MLM 是訓練方法。一個是考試形式，一個是學習方式。

最關鍵的區別： 題型和訓練方法不是同一件事。

先把字挖掉，再逼模型補回來。

BERT 預訓練 BERT 就常用 MLM 學到雙向上下文，讓它更懂句子語意。

文字理解模型 當你要做分類或檢索前的表徵學習，MLM 很常是前置訓練任務。

常見做法是隨機遮住部分 token，讓模型根據左右文預測原詞。因為能看左右兩邊，它比單向接龍更擅長理解語境。這也是 BERT 類模型的重要預訓練任務。

Q1（直覺題）：句子中間少掉一個詞，模型要根據前後文猜回來，這像什麼任務？

→ 這就是遮蔽語言模型的典型訓練方式。

Q2（判斷題）：只要是填空題，就一定代表模型用了 MLM 嗎？

→ 不一定，填空是題型，MLM 是一種訓練策略。

常見問題

因為它在預測空格時可以同時看左邊和右邊的上下文。

不一定，遮太多會太難，遮太少又學不到足夠上下文。

BERT 最經典的預訓練方式之一就是 MLM。