遮蔽語言模型 是什麼?
Masked Language Model — 遮蔽語言模型 的完整解釋
遮蔽語言模型(MLM)是一種自監督學習方法,隨機遮蔽輸入文本的部分詞語,並訓練模型預測這些被遮蔽的詞語。
容易混淆
MLM vs 因果語言模型 MLM 看雙向上下文,因果語言模型通常只看前文。 一個像整句填空,一個像接龍。
MLM vs 完形填空任務 完形填空是題型,MLM 是訓練方法。 一個是考試形式,一個是學習方式。
最關鍵的區別: 題型和訓練方法不是同一件事。
記住這句就好
先把字挖掉,再逼模型補回來。
實際案例
BERT 預訓練 BERT 就常用 MLM 學到雙向上下文,讓它更懂句子語意。
文字理解模型 當你要做分類或檢索前的表徵學習,MLM 很常是前置訓練任務。
算法與應用
常見做法是隨機遮住部分 token,讓模型根據左右文預測原詞。 因為能看左右兩邊,它比單向接龍更擅長理解語境。 這也是 BERT 類模型的重要預訓練任務。
情境判斷
Q1(直覺題): 句子中間少掉一個詞,模型要根據前後文猜回來,這像什麼任務?
→ 這就是遮蔽語言模型的典型訓練方式。
Q2(判斷題): 只要是填空題,就一定代表模型用了 MLM 嗎?
→ 不一定,填空是題型,MLM 是一種訓練策略。
相關術語
常見問題
MLM 為什麼能學雙向語意?
因為它在預測空格時可以同時看左邊和右邊的上下文。
MLM 一定要遮很多字嗎?
不一定,遮太多會太難,遮太少又學不到足夠上下文。
MLM 和 BERT 有什麼關係?
BERT 最經典的預訓練方式之一就是 MLM。