BERT(Bidirectional Encoder Representations from Transformers)是什麼?

Google 的雙向語言模型,用 MLM(遮罩)和 NSP 預訓練,擅長理解文本語意|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

BERT(Bidirectional Encoder Representations from Transformers)是什麼? iPAS 自然語言處理深度學習

你在做文本理解,想讓模型同時看前後文時,你會怎麼判斷它真正的作用?

你可以把它想成 Google 的雙向語言模型,用 MLM(遮罩)和 NSP 預訓練,擅長理解文本語意。

在 你在做文本理解,想讓模型同時看前後文時 這種情境裡,這個概念會直接影響你怎麼設計、怎麼評估、怎麼上線。

容易混淆

BERT vs GPT BERT 偏理解,GPT 偏生成,一個看前後文,一個主要沿著前文往下寫。

編碼器 vs 解碼器 BERT 是編碼器路線,擅長表徵文本;解碼器路線則擅長逐字生成。

MLM vs 因果預測 MLM 會把字遮起來讓模型補空格,因果預測則是依序猜下一個 token。

記住這句就好

先看它要解決的是什麼問題,再看它是不是最合適的方法。

實際案例

案例 1:搜尋理解 使用者輸入「台北到高雄火車票」,BERT 可以更好抓到整句意圖,而不只是拆字比對。

案例 2:情緒分類 一句評論裡有反諷或轉折時,BERT 常比單向模型更容易看懂上下文。

算法與應用

面向 重點
核心 先做遮罩式預訓練,再拿去微調分類、問答、抽取等任務。
特點 雙向上下文讓它在理解任務上很強。
注意 原始版本計算成本不低,實務常搭配輕量化變體。

情境判斷

Q1(判斷題): 如果你要做垃圾郵件分類,會不會直接拿 BERT 微調? → 可以,這正是 BERT 很常見的用法,因為它很適合理解文本語意。

Q2(判斷題): 如果你的任務是逐字寫文章,BERT 會是首選嗎? → 不會,這時通常會選更擅長生成的因果語言模型。

常見問題

BERT 一定要預訓練嗎?

它最有價值的部分就是預訓練後再微調,直接從零開始通常效果和效率都差一些。

中文一定要先分詞嗎?

視實作而定,很多中文模型會直接用子詞切法,不一定走傳統分詞流程。

BERT 很吃算力怎麼辦?

可以用蒸餾、剪枝、量化,或直接選輕量版模型。

iPAS 考試出題分析

根據歷年 iPAS AI 應用規劃師考古題統計,BERT 相關題目 平均佔 AI 技術類考題 3%, 屬於未分類考範圍。

常見出題方向包含:自然語言處理模型架構(佔 40%)、預訓練模型與遷移學習(佔 35%)、深度學習在 NLP 的應用(佔 25%)。

立即測驗

想測試你對 BERT 的掌握程度? 開始模擬考