BERT 是什麼？

Bidirectional Encoder Representations from Transformers — BERT 的完整解釋

Google 的雙向語言模型，用 MLM（遮罩）和 NSP 預訓練，擅長理解文本語意

容易混淆

BERT vs GPT BERT 偏理解，GPT 偏生成，一個看前後文，一個主要沿著前文往下寫。

編碼器 vs 解碼器 BERT 是編碼器路線，擅長表徵文本；解碼器路線則擅長逐字生成。

MLM vs 因果預測 MLM 會把字遮起來讓模型補空格，因果預測則是依序猜下一個 token。

記住這句就好

先看它要解決的是什麼問題，再看它是不是最合適的方法。

實際案例

案例 1：搜尋理解 使用者輸入「台北到高雄火車票」，BERT 可以更好抓到整句意圖，而不只是拆字比對。

案例 2：情緒分類 一句評論裡有反諷或轉折時，BERT 常比單向模型更容易看懂上下文。

算法與應用

面向重點

核心先做遮罩式預訓練，再拿去微調分類、問答、抽取等任務。

特點雙向上下文讓它在理解任務上很強。

注意原始版本計算成本不低，實務常搭配輕量化變體。

面向	重點
核心	先做遮罩式預訓練，再拿去微調分類、問答、抽取等任務。
特點	雙向上下文讓它在理解任務上很強。
注意	原始版本計算成本不低，實務常搭配輕量化變體。

情境判斷

Q1（判斷題）： 如果你要做垃圾郵件分類，會不會直接拿 BERT 微調？ → 可以，這正是 BERT 很常見的用法，因為它很適合理解文本語意。

Q2（判斷題）： 如果你的任務是逐字寫文章，BERT 會是首選嗎？ → 不會，這時通常會選更擅長生成的因果語言模型。

BERT 在 iPAS 考試中的重點

根據歷年統計，BERT 相關題目平均佔 AI 技術類考題 3%，屬於未分類考範圍。

常見出題方向：自然語言處理模型架構（40%）、預訓練模型與遷移學習（35%）、深度學習在 NLP 的應用（25%）。

常見問題

BERT 一定要預訓練嗎？

它最有價值的部分就是預訓練後再微調，直接從零開始通常效果和效率都差一些。

中文一定要先分詞嗎？

視實作而定，很多中文模型會直接用子詞切法，不一定走傳統分詞流程。

BERT 很吃算力怎麼辦？

可以用蒸餾、剪枝、量化，或直接選輕量版模型。

資料來源

iPAS AI 應用規劃師評鑑內容範圍參考（115.02） — 經濟部產業人才能力鑑定

← 回到 BERT 快查頁

測驗你對 BERT 的理解

透過模擬考系統檢驗學習成果

開始測驗