雙向編碼器表示(BERT)是什麼?

BERT是一種基於Transformer架構的雙向編碼器模型,用於理解文本的語義和上下文,廣泛應用於自然語言理解任務。|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

雙向編碼器表示(BERT)是什麼? 大型語言模型自然語言處理

你看到句子中間有個詞被遮住,模型能不能根據前後文猜出來? 你可以把 BERT 想成會同時看左右文的雙向編碼器。 它很擅長理解語意、分類與問答這類需要上下文的任務。

你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。

容易混淆

BERT vs GPT? BERT:雙向看上下文的編碼器 GPT:主要用前文往後生成 最關鍵的區別:BERT 偏理解,GPT 偏生成

BERT vs 語言模型? BERT:訓練時常用遮蔽詞預訓練 語言模型:泛指任何處理語言的模型 最關鍵的區別:BERT 是語言模型的一種,但訓練目標和架構很有特色

BERT vs Seq2Seq? BERT:只有編碼器 Seq2Seq:通常有編碼器和解碼器兩部分 最關鍵的區別:BERT 很適合理解任務,不是典型生成架構

記住這句就好

先看左右文,再猜被遮住的字

實際案例

情感分類 模型讀完整句子後判斷是正面還是負面,因為前後文對語意影響很大

問答系統 系統先理解問題與段落內容,再找出最可能的答案位置

算法與應用

重點 你要看什麼 為什麼重要
預訓練 大規模文本學語言規律 讓模型先學通用語意
微調 接到下游任務再學一次 把通用能力轉成特定應用
限制 輸入長度有限 長文本通常要切段處理

常見問題

BERT 可以做生成嗎?

原生 BERT 不擅長自由生成,因為它主要是編碼器架構。

BERT 和 GPT 哪個比較強?

看任務。理解型任務常用 BERT,生成型任務多半更適合 GPT 類模型。

BERT 的最大長度固定嗎?

常見版本有上限,超長文本通常要用截斷、滑窗或長文本變體。

情境判斷

Q1:如果你要做句子分類或問答,BERT 通常合不合適? → 通常合適,因為它很會抓上下文語意

Q2:如果你要長篇續寫,BERT 會是最自然的選擇嗎? → 通常不是,生成任務多半更偏向解碼器架構