你在做文本理解,想讓模型同時看前後文時,你會怎麼判斷它真正的作用?
你可以把它想成 Google 的雙向語言模型,用 MLM(遮罩)和 NSP 預訓練,擅長理解文本語意。
在 你在做文本理解,想讓模型同時看前後文時 這種情境裡,這個概念會直接影響你怎麼設計、怎麼評估、怎麼上線。
容易混淆
BERT vs GPT BERT 偏理解,GPT 偏生成,一個看前後文,一個主要沿著前文往下寫。
編碼器 vs 解碼器 BERT 是編碼器路線,擅長表徵文本;解碼器路線則擅長逐字生成。
MLM vs 因果預測 MLM 會把字遮起來讓模型補空格,因果預測則是依序猜下一個 token。
記住這句就好
先看它要解決的是什麼問題,再看它是不是最合適的方法。
實際案例
案例 1:搜尋理解 使用者輸入「台北到高雄火車票」,BERT 可以更好抓到整句意圖,而不只是拆字比對。
案例 2:情緒分類 一句評論裡有反諷或轉折時,BERT 常比單向模型更容易看懂上下文。
算法與應用
面向 重點 核心 先做遮罩式預訓練,再拿去微調分類、問答、抽取等任務。 特點 雙向上下文讓它在理解任務上很強。 注意 原始版本計算成本不低,實務常搭配輕量化變體。
情境判斷
Q1(判斷題): 如果你要做垃圾郵件分類,會不會直接拿 BERT 微調? → 可以,這正是 BERT 很常見的用法,因為它很適合理解文本語意。
Q2(判斷題): 如果你的任務是逐字寫文章,BERT 會是首選嗎? → 不會,這時通常會選更擅長生成的因果語言模型。
常見問題
BERT 一定要預訓練嗎?
它最有價值的部分就是預訓練後再微調,直接從零開始通常效果和效率都差一些。
中文一定要先分詞嗎?
視實作而定,很多中文模型會直接用子詞切法,不一定走傳統分詞流程。
BERT 很吃算力怎麼辦?
可以用蒸餾、剪枝、量化,或直接選輕量版模型。
iPAS 考試出題分析
根據歷年 iPAS AI 應用規劃師考古題統計,BERT 相關題目 平均佔 AI 技術類考題 3%, 屬於未分類考範圍。
常見出題方向包含:自然語言處理模型架構(佔 40%)、預訓練模型與遷移學習(佔 35%)、深度學習在 NLP 的應用(佔 25%)。