---
title: "雙向編碼器表示（BERT）"
slug: bert
language: zh-TW
source: https://aiterms.tw/terms/bert
updated_at: 2026-04-29
tags: [大型語言模型, 自然語言處理, 深度學習, 模型訓練, 自監督學習]
ipas_term: false
---

# 雙向編碼器表示（BERT）

> **你看到句子中間有個詞被遮住，模型能不能根據前後文猜出來？**
> 你可以把 BERT 想成會同時看左右文的雙向編碼器。
> 它很擅長理解語意、分類與問答這類需要上下文的任務。
>
> 你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

### 容易混淆

> **BERT vs GPT？**
> BERT：雙向看上下文的編碼器
> GPT：主要用前文往後生成
> 最關鍵的區別：BERT 偏理解，GPT 偏生成
>
> **BERT vs 語言模型？**
> BERT：訓練時常用遮蔽詞預訓練
> 語言模型：泛指任何處理語言的模型
> 最關鍵的區別：BERT 是語言模型的一種，但訓練目標和架構很有特色
>
> **BERT vs Seq2Seq？**
> BERT：只有編碼器
> Seq2Seq：通常有編碼器和解碼器兩部分
> 最關鍵的區別：BERT 很適合理解任務，不是典型生成架構
### 記住這句就好

> 先看左右文，再猜被遮住的字
### 實際案例

> **情感分類**
> 模型讀完整句子後判斷是正面還是負面，因為前後文對語意影響很大
>
> **問答系統**
> 系統先理解問題與段落內容，再找出最可能的答案位置
### 算法與應用

> | 重點 | 你要看什麼 | 為什麼重要 |
> |---|---|---|
> | 預訓練 | 大規模文本學語言規律 | 讓模型先學通用語意 |
> | 微調 | 接到下游任務再學一次 | 把通用能力轉成特定應用 |
> | 限制 | 輸入長度有限 | 長文本通常要切段處理 |
### 常見問題

> **Q：BERT 可以做生成嗎？**
> 原生 BERT 不擅長自由生成，因為它主要是編碼器架構。
>
> **Q：BERT 和 GPT 哪個比較強？**
> 看任務。理解型任務常用 BERT，生成型任務多半更適合 GPT 類模型。
>
> **Q：BERT 的最大長度固定嗎？**
> 常見版本有上限，超長文本通常要用截斷、滑窗或長文本變體。
### 情境判斷

> **Q1：如果你要做句子分類或問答，BERT 通常合不合適？**
> → 通常合適，因為它很會抓上下文語意
>
> **Q2：如果你要長篇續寫，BERT 會是最自然的選擇嗎？**
> → 通常不是，生成任務多半更偏向解碼器架構
### 相關術語

> - **轉換器架構**：BERT 建立在 Transformer 架構上
> - **遮蔽語言模型**：這是 BERT 預訓練的重要任務
> - **嵌入表示**：理解 BERT 時常要先懂詞向量表示

---

來源：https://aiterms.tw/terms/bert
快查頁：https://aiterms.tw/terms/bert
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-bert