---
title: "BERT（Bidirectional Encoder Representations from Transformers）"
slug: bidirectional-encoder-representations-from-transformers
language: zh-TW
source: https://aiterms.tw/terms/bidirectional-encoder-representations-from-transformers
updated_at: 2026-04-29
tags: [自然語言處理, 深度學習, 大型語言模型]
ipas_term: true
---

# BERT（Bidirectional Encoder Representations from Transformers）

> **你在做文本理解，想讓模型同時看前後文時，你會怎麼判斷它真正的作用？**
>
> 你可以把它想成 Google 的雙向語言模型，用 MLM（遮罩）和 NSP 預訓練，擅長理解文本語意。
>
> 在 你在做文本理解，想讓模型同時看前後文時 這種情境裡，這個概念會直接影響你怎麼設計、怎麼評估、怎麼上線。

### 容易混淆
> **BERT vs GPT**
> BERT 偏理解，GPT 偏生成，一個看前後文，一個主要沿著前文往下寫。
>
> **編碼器 vs 解碼器**
> BERT 是編碼器路線，擅長表徵文本；解碼器路線則擅長逐字生成。
>
> **MLM vs 因果預測**
> MLM 會把字遮起來讓模型補空格，因果預測則是依序猜下一個 token。

### 記住這句就好
> 先看它要解決的是什麼問題，再看它是不是最合適的方法。

### 實際案例
> **案例 1：搜尋理解**
> 使用者輸入「台北到高雄火車票」，BERT 可以更好抓到整句意圖，而不只是拆字比對。
>
> **案例 2：情緒分類**
> 一句評論裡有反諷或轉折時，BERT 常比單向模型更容易看懂上下文。

### 算法與應用
> | 面向 | 重點 |
> |---|---|
> | 核心 | 先做遮罩式預訓練，再拿去微調分類、問答、抽取等任務。 |
> | 特點 | 雙向上下文讓它在理解任務上很強。 |
> | 注意 | 原始版本計算成本不低，實務常搭配輕量化變體。 |

### 情境判斷
> **Q1（判斷題）：** 如果你要做垃圾郵件分類，會不會直接拿 BERT 微調？
> → 可以，這正是 BERT 很常見的用法，因為它很適合理解文本語意。
>
> **Q2（判斷題）：** 如果你的任務是逐字寫文章，BERT 會是首選嗎？
> → 不會，這時通常會選更擅長生成的因果語言模型。

### 常見問題
> **Q：BERT 一定要預訓練嗎？**
> 它最有價值的部分就是預訓練後再微調，直接從零開始通常效果和效率都差一些。
>
> **Q：中文一定要先分詞嗎？**
> 視實作而定，很多中文模型會直接用子詞切法，不一定走傳統分詞流程。
>
> **Q：BERT 很吃算力怎麼辦？**
> 可以用蒸餾、剪枝、量化，或直接選輕量版模型。

### 相關術語
> - **轉換器架構**：先讀這個，能幫你把主題放進更大的脈絡裡。
> - **注意力機制**：先讀這個，能幫你把主題放進更大的脈絡裡。
> - **自然語言處理**：先讀這個，能幫你把主題放進更大的脈絡裡。
> - **編碼器**：先讀這個，能幫你把主題放進更大的脈絡裡。
> - **嵌入表示**：先讀這個，能幫你把主題放進更大的脈絡裡。

---

來源：https://aiterms.tw/terms/bidirectional-encoder-representations-from-transformers
快查頁：https://aiterms.tw/terms/bidirectional-encoder-representations-from-transformers
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-bidirectional-encoder-representations-from-transformers