符記 是什麼?
Token — 符記 的完整解釋
符記是大型語言模型處理文字時,不可分割的最小單位,它可以是一個字、詞,或者更小的子詞
容易混淆
符記 vs 分詞 符記是拆完之後得到的單位 分詞是把文字拆成這些單位的過程 最關鍵的區別:結果和動作不要混在一起
符記 vs 字 一個字不一定只對應一個 token 一個 token 也不一定剛好是一個字 最關鍵的區別:token 是模型視角,不是字典視角
符記 vs 嵌入表示 符記是文字單位 嵌入表示是把單位變成向量 最關鍵的區別:先有 token,之後才有向量表示
記住這句就好
模型不是直接吃整句話,而是先吃 token。
實際案例
費用估算 你輸入越長的提示詞,token 數越多,API 計費和處理時間通常也越高
中文切分 「人工智慧」可能被切成一到多個 token,切法不同,模型看到的邊界也不同
算法與應用
| 切分單位 | 字、詞、子詞都可能成為 token | 不同語言規則不一樣 | | 上下文長度 | 模型一次能處理多少 token | 這會影響能記住多少內容 | | 成本計算 | 很多系統按 token 數計價 | 長輸入和長輸出都會增加成本 | | 錯誤來源 | 切分不佳會影響理解與生成 | 尤其在專有名詞和中文上更明顯 |
情境判斷
Q1(直覺題):你把一大段報告丟給模型,它突然忘了前面內容,通常先看什麼? → 先看 token 長度有沒有超過上下文限制。
Q2(判斷題):你以為一個中文字一定等於一個 token,這個判斷對嗎? → 不一定,要看詞彙表和分詞方式,中文常常不是一對一。
相關術語
常見問題
token 越少越好嗎?
不一定,太少可能切得太粗,太多又會增加成本,重點是切分方式要適合任務。
token 和字元是一樣的嗎?
不是,字元是文字外觀,token 是模型處理用的單位。
為什麼不同模型的 token 數會不一樣?
因為各家詞表和分詞器不同,同一句話可能被切成不同長度。