BERT（雙向編碼器表示）是什麼？完整定義與解說

大型語言模型自然語言處理

你看到句子中間有個詞被遮住，模型能不能根據前後文猜出來？ 你可以把 BERT 想成會同時看左右文的雙向編碼器。它很擅長理解語意、分類與問答這類需要上下文的任務。

你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

容易混淆

BERT vs GPT？ BERT：雙向看上下文的編碼器 GPT：主要用前文往後生成最關鍵的區別：BERT 偏理解，GPT 偏生成

BERT vs 語言模型？ BERT：訓練時常用遮蔽詞預訓練語言模型：泛指任何處理語言的模型最關鍵的區別：BERT 是語言模型的一種，但訓練目標和架構很有特色

BERT vs Seq2Seq？ BERT：只有編碼器 Seq2Seq：通常有編碼器和解碼器兩部分最關鍵的區別：BERT 很適合理解任務，不是典型生成架構

記住這句就好

先看左右文，再猜被遮住的字

實際案例

情感分類 模型讀完整句子後判斷是正面還是負面，因為前後文對語意影響很大

問答系統 系統先理解問題與段落內容，再找出最可能的答案位置

算法與應用

重點你要看什麼為什麼重要

預訓練大規模文本學語言規律讓模型先學通用語意

微調接到下游任務再學一次把通用能力轉成特定應用

限制輸入長度有限長文本通常要切段處理

重點	你要看什麼	為什麼重要
預訓練	大規模文本學語言規律	讓模型先學通用語意
微調	接到下游任務再學一次	把通用能力轉成特定應用
限制	輸入長度有限	長文本通常要切段處理

常見問題

BERT 可以做生成嗎？

原生 BERT 不擅長自由生成，因為它主要是編碼器架構。

BERT 和 GPT 哪個比較強？

看任務。理解型任務常用 BERT，生成型任務多半更適合 GPT 類模型。

BERT 的最大長度固定嗎？

常見版本有上限，超長文本通常要用截斷、滑窗或長文本變體。

情境判斷

Q1：如果你要做句子分類或問答，BERT 通常合不合適？ → 通常合適，因為它很會抓上下文語意

Q2：如果你要長篇續寫，BERT 會是最自然的選擇嗎？ → 通常不是，生成任務多半更偏向解碼器架構

容易混淆

記住這句就好

實際案例

算法與應用

常見問題

情境判斷

相關術語

延伸學習

資料來源與參考依據