BPE（位元組對編碼）是什麼？完整定義與解說

Q: BPE 怎麼處理 OOV？

把未知詞拆成已知子詞組合。

你想把罕見字或新單字拆成模型看得懂的片段時，你會怎麼判斷它真正的作用？

你可以把它想成位元組對編碼（BPE）是一種資料壓縮技術，也常用於自然語言處理中，作為一種詞彙標記化方法，將單詞分解成更小的子詞單元。

在你想把罕見字或新單字拆成模型看得懂的片段時這種情境裡，這個概念會直接影響你怎麼設計、怎麼評估、怎麼上線。

容易混淆

BPE vs WordPiece 兩者都切子詞，但合併規則和目標略有不同。

BPE vs SentencePiece SentencePiece 更強調把分詞流程和模型訓練整合起來。

BPE vs 斷詞 傳統斷詞是切詞語，BPE 是切成更細的子詞單元。

記住這句就好

先看它要解決的是什麼問題，再看它是不是最合適的方法。

實際案例

案例 1：罕見人名 即使整個名字沒出現過，子詞拆開後模型仍可能看懂。

案例 2：多語言詞彙表 用子詞可以把不同語言共享部分詞根，減少詞彙表壓力。

算法與應用

面向重點

核心把常見字元對反覆合併，形成可重用的子詞。

好處詞彙表不必無限大，也比較能處理未登錄詞。

注意切太細會損失語意，切太粗又會增加詞表。

面向	重點
核心	把常見字元對反覆合併，形成可重用的子詞。
好處	詞彙表不必無限大，也比較能處理未登錄詞。
注意	切太細會損失語意，切太粗又會增加詞表。

情境判斷

Q1（判斷題）： 如果一個新單字模型沒見過，BPE 就完全沒辦法嗎？ → 通常不是，它會拆成已知子詞再組回來。

Q2（判斷題）： 詞彙表越大就一定越好嗎？ → 不一定，詞表大會增加參數和稀疏性。

常見問題

BPE 和中文分詞一樣嗎？

不一樣，中文分詞是詞級切分，BPE 是更細的子詞切分。

BPE 怎麼處理 OOV？

把未知詞拆成已知子詞組合。

為什麼大型語言模型愛用子詞？

因為它能平衡詞彙表大小、泛化能力和計算成本。

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

常見問題

相關術語

延伸學習

資料來源與參考依據