---
title: "遮蔽語言模型（Masked Language Model）"
slug: masked-language-model
language: zh-TW
source: https://aiterms.tw/terms/masked-language-model
updated_at: 2026-04-29
tags: [深度學習, 自然語言處理, 自監督學習, 模型訓練, 大型語言模型, AI基礎]
ipas_term: false
---

# 遮蔽語言模型（Masked Language Model）

> **你有沒有做過填空題，少掉幾個字也還是能猜出整句意思？**
> 你可以把遮蔽語言模型想成，先把句子挖空，再讓模型把空格填回來。
> 它其實就是透過預測被遮蔽的詞來學語言。
> 這種方式很適合學上下文和雙向語意。
>
>
> 你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

### 容易混淆
> **MLM vs 因果語言模型**
> MLM 看雙向上下文，因果語言模型通常只看前文。
> 一個像整句填空，一個像接龍。
>
> **MLM vs 完形填空任務**
> 完形填空是題型，MLM 是訓練方法。
> 一個是考試形式，一個是學習方式。
>
> **最關鍵的區別：** 題型和訓練方法不是同一件事。
>
### 記住這句就好
> 先把字挖掉，再逼模型補回來。
>
### 實際案例
> **BERT 預訓練**
> BERT 就常用 MLM 學到雙向上下文，讓它更懂句子語意。
>
> **文字理解模型**
> 當你要做分類或檢索前的表徵學習，MLM 很常是前置訓練任務。
>
### 算法與應用
> 常見做法是隨機遮住部分 token，讓模型根據左右文預測原詞。
> 因為能看左右兩邊，它比單向接龍更擅長理解語境。
> 這也是 BERT 類模型的重要預訓練任務。
>
### 情境判斷
> **Q1（直覺題）： 句子中間少掉一個詞，模型要根據前後文猜回來，這像什麼任務？**
>
> → 這就是遮蔽語言模型的典型訓練方式。
>
> **Q2（判斷題）： 只要是填空題，就一定代表模型用了 MLM 嗎？**
>
> → 不一定，填空是題型，MLM 是一種訓練策略。
>
### 常見問題
> **Q：MLM 為什麼能學雙向語意？**
> 因為它在預測空格時可以同時看左邊和右邊的上下文。
>
> **Q：MLM 一定要遮很多字嗎？**
> 不一定，遮太多會太難，遮太少又學不到足夠上下文。
>
> **Q：MLM 和 BERT 有什麼關係？**
> BERT 最經典的預訓練方式之一就是 MLM。
>
### 相關術語
> - **BERT**：這是 MLM 最常一起出現的模型。
> - **完形填空任務**：讀完這個，能更快理解 MLM 在做什麼。
> - **因果語言模型**：兩者是最常被拿來對比的語言模型訓練法。
> - **轉換器架構**：很多 MLM 模型都是建立在這個架構上。

---

來源：https://aiterms.tw/terms/masked-language-model
快查頁：https://aiterms.tw/terms/masked-language-model
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-masked-language-model