BERT 是什麼?
Bidirectional Encoder Representations from Transformers — BERT 的完整解釋
Google 的雙向語言模型,用 MLM(遮罩)和 NSP 預訓練,擅長理解文本語意
容易混淆
BERT vs GPT BERT 偏理解,GPT 偏生成,一個看前後文,一個主要沿著前文往下寫。
編碼器 vs 解碼器 BERT 是編碼器路線,擅長表徵文本;解碼器路線則擅長逐字生成。
MLM vs 因果預測 MLM 會把字遮起來讓模型補空格,因果預測則是依序猜下一個 token。
記住這句就好
先看它要解決的是什麼問題,再看它是不是最合適的方法。
實際案例
案例 1:搜尋理解 使用者輸入「台北到高雄火車票」,BERT 可以更好抓到整句意圖,而不只是拆字比對。
案例 2:情緒分類 一句評論裡有反諷或轉折時,BERT 常比單向模型更容易看懂上下文。
算法與應用
面向 重點 核心 先做遮罩式預訓練,再拿去微調分類、問答、抽取等任務。 特點 雙向上下文讓它在理解任務上很強。 注意 原始版本計算成本不低,實務常搭配輕量化變體。
情境判斷
Q1(判斷題): 如果你要做垃圾郵件分類,會不會直接拿 BERT 微調? → 可以,這正是 BERT 很常見的用法,因為它很適合理解文本語意。
Q2(判斷題): 如果你的任務是逐字寫文章,BERT 會是首選嗎? → 不會,這時通常會選更擅長生成的因果語言模型。
BERT 在 iPAS 考試中的重點
根據歷年統計,BERT 相關題目 平均佔 AI 技術類考題 3%, 屬於未分類考範圍。
常見出題方向:自然語言處理模型架構(40%)、預訓練模型與遷移學習(35%)、深度學習在 NLP 的應用(25%)。
相關術語
常見問題
BERT 一定要預訓練嗎?
它最有價值的部分就是預訓練後再微調,直接從零開始通常效果和效率都差一些。
中文一定要先分詞嗎?
視實作而定,很多中文模型會直接用子詞切法,不一定走傳統分詞流程。
BERT 很吃算力怎麼辦?
可以用蒸餾、剪枝、量化,或直接選輕量版模型。
資料來源
- iPAS AI 應用規劃師評鑑內容範圍參考(115.02) — 經濟部產業人才能力鑑定