遮蔽語言模型(Masked Language Model)是什麼?

遮蔽語言模型(MLM)是一種自監督學習方法,隨機遮蔽輸入文本的部分詞語,並訓練模型預測這些被遮蔽的詞語。|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

遮蔽語言模型(Masked Language Model)是什麼? 深度學習自然語言處理

你有沒有做過填空題,少掉幾個字也還是能猜出整句意思? 你可以把遮蔽語言模型想成,先把句子挖空,再讓模型把空格填回來。 它其實就是透過預測被遮蔽的詞來學語言。 這種方式很適合學上下文和雙向語意。

你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。

容易混淆

MLM vs 因果語言模型 MLM 看雙向上下文,因果語言模型通常只看前文。 一個像整句填空,一個像接龍。

MLM vs 完形填空任務 完形填空是題型,MLM 是訓練方法。 一個是考試形式,一個是學習方式。

最關鍵的區別: 題型和訓練方法不是同一件事。

記住這句就好

先把字挖掉,再逼模型補回來。

實際案例

BERT 預訓練 BERT 就常用 MLM 學到雙向上下文,讓它更懂句子語意。

文字理解模型 當你要做分類或檢索前的表徵學習,MLM 很常是前置訓練任務。

算法與應用

常見做法是隨機遮住部分 token,讓模型根據左右文預測原詞。 因為能看左右兩邊,它比單向接龍更擅長理解語境。 這也是 BERT 類模型的重要預訓練任務。

情境判斷

Q1(直覺題): 句子中間少掉一個詞,模型要根據前後文猜回來,這像什麼任務?

這就是遮蔽語言模型的典型訓練方式。

Q2(判斷題): 只要是填空題,就一定代表模型用了 MLM 嗎?

不一定,填空是題型,MLM 是一種訓練策略。

常見問題

MLM 為什麼能學雙向語意?

因為它在預測空格時可以同時看左邊和右邊的上下文。

MLM 一定要遮很多字嗎?

不一定,遮太多會太難,遮太少又學不到足夠上下文。

MLM 和 BERT 有什麼關係?

BERT 最經典的預訓練方式之一就是 MLM。