BERT 是什麼?

Bidirectional Encoder Representations from Transformers — BERT 的完整解釋

Google 的雙向語言模型,用 MLM(遮罩)和 NSP 預訓練,擅長理解文本語意

容易混淆

BERT vs GPT BERT 偏理解,GPT 偏生成,一個看前後文,一個主要沿著前文往下寫。

編碼器 vs 解碼器 BERT 是編碼器路線,擅長表徵文本;解碼器路線則擅長逐字生成。

MLM vs 因果預測 MLM 會把字遮起來讓模型補空格,因果預測則是依序猜下一個 token。

記住這句就好

先看它要解決的是什麼問題,再看它是不是最合適的方法。

實際案例

案例 1:搜尋理解 使用者輸入「台北到高雄火車票」,BERT 可以更好抓到整句意圖,而不只是拆字比對。

案例 2:情緒分類 一句評論裡有反諷或轉折時,BERT 常比單向模型更容易看懂上下文。

算法與應用

面向 重點
核心 先做遮罩式預訓練,再拿去微調分類、問答、抽取等任務。
特點 雙向上下文讓它在理解任務上很強。
注意 原始版本計算成本不低,實務常搭配輕量化變體。

情境判斷

Q1(判斷題): 如果你要做垃圾郵件分類,會不會直接拿 BERT 微調? → 可以,這正是 BERT 很常見的用法,因為它很適合理解文本語意。

Q2(判斷題): 如果你的任務是逐字寫文章,BERT 會是首選嗎? → 不會,這時通常會選更擅長生成的因果語言模型。

BERT 在 iPAS 考試中的重點

根據歷年統計,BERT 相關題目 平均佔 AI 技術類考題 3%, 屬於未分類考範圍。

常見出題方向:自然語言處理模型架構(40%)、預訓練模型與遷移學習(35%)、深度學習在 NLP 的應用(25%)。

相關術語

常見問題

BERT 一定要預訓練嗎?

它最有價值的部分就是預訓練後再微調,直接從零開始通常效果和效率都差一些。

中文一定要先分詞嗎?

視實作而定,很多中文模型會直接用子詞切法,不一定走傳統分詞流程。

BERT 很吃算力怎麼辦?

可以用蒸餾、剪枝、量化,或直接選輕量版模型。

資料來源

← 回到 BERT 快查頁

測驗你對 BERT 的理解

透過模擬考系統檢驗學習成果

開始測驗