遮蔽語言模型 是什麼?

Masked Language Model — 遮蔽語言模型 的完整解釋

遮蔽語言模型(MLM)是一種自監督學習方法,隨機遮蔽輸入文本的部分詞語,並訓練模型預測這些被遮蔽的詞語。

容易混淆

MLM vs 因果語言模型 MLM 看雙向上下文,因果語言模型通常只看前文。 一個像整句填空,一個像接龍。

MLM vs 完形填空任務 完形填空是題型,MLM 是訓練方法。 一個是考試形式,一個是學習方式。

最關鍵的區別: 題型和訓練方法不是同一件事。

記住這句就好

先把字挖掉,再逼模型補回來。

實際案例

BERT 預訓練 BERT 就常用 MLM 學到雙向上下文,讓它更懂句子語意。

文字理解模型 當你要做分類或檢索前的表徵學習,MLM 很常是前置訓練任務。

算法與應用

常見做法是隨機遮住部分 token,讓模型根據左右文預測原詞。 因為能看左右兩邊,它比單向接龍更擅長理解語境。 這也是 BERT 類模型的重要預訓練任務。

情境判斷

Q1(直覺題): 句子中間少掉一個詞,模型要根據前後文猜回來,這像什麼任務?

→ 這就是遮蔽語言模型的典型訓練方式。

Q2(判斷題): 只要是填空題,就一定代表模型用了 MLM 嗎?

→ 不一定,填空是題型,MLM 是一種訓練策略。

相關術語

常見問題

MLM 為什麼能學雙向語意?

因為它在預測空格時可以同時看左邊和右邊的上下文。

MLM 一定要遮很多字嗎?

不一定,遮太多會太難,遮太少又學不到足夠上下文。

MLM 和 BERT 有什麼關係?

BERT 最經典的預訓練方式之一就是 MLM。