Token（符記）是什麼？完整定義與解說

自然語言處理大型語言模型

你有沒有想過，模型看一段文字時，究竟是整句一起看，還是一小塊一小塊看？ 你可以把 token 想成模型讀文字時用的最小工作單位它不一定等於一個字或一個詞，會跟分詞規則和語言有關模型通常先把文字拆成 token，再拿這些 token 去做理解和生成

容易混淆

符記 vs 分詞 符記是拆完之後得到的單位分詞是把文字拆成這些單位的過程最關鍵的區別：結果和動作不要混在一起

符記 vs 字 一個字不一定只對應一個 token 一個 token 也不一定剛好是一個字最關鍵的區別：token 是模型視角，不是字典視角

符記 vs 嵌入表示 符記是文字單位嵌入表示是把單位變成向量最關鍵的區別：先有 token，之後才有向量表示

記住這句就好

模型不是直接吃整句話，而是先吃 token。

實際案例

費用估算 你輸入越長的提示詞，token 數越多，API 計費和處理時間通常也越高

中文切分 「人工智慧」可能被切成一到多個 token，切法不同，模型看到的邊界也不同

算法與應用

| 切分單位 | 字、詞、子詞都可能成為 token | 不同語言規則不一樣 | | 上下文長度 | 模型一次能處理多少 token | 這會影響能記住多少內容 | | 成本計算 | 很多系統按 token 數計價 | 長輸入和長輸出都會增加成本 | | 錯誤來源 | 切分不佳會影響理解與生成 | 尤其在專有名詞和中文上更明顯 |

情境判斷

Q1（直覺題）： 你把一大段報告丟給模型，它突然忘了前面內容，通常先看什麼？

先看 token 長度有沒有超過上下文限制。

Q2（判斷題）： 你以為一個中文字一定等於一個 token，這個判斷對嗎？

不一定，要看詞彙表和分詞方式，中文常常不是一對一。

常見問題

token 越少越好嗎？

不一定，太少可能切得太粗，太多又會增加成本，重點是切分方式要適合任務。

token 和字元是一樣的嗎？

不是，字元是文字外觀，token 是模型處理用的單位。

為什麼不同模型的 token 數會不一樣？

因為各家詞表和分詞器不同，同一句話可能被切成不同長度。

範例考題

某市政府交通局計劃導入生成式 AI 技術來自動生成公車到站時間預測的文字報告，每日需處理約 50 萬筆交通資料並生成 1000 份報告。在評估導入成本時，團隊希望進行 Token Economics 分析（指模型推理與生成過程中，Token 使用量及其費用）。下列何者不屬於 Token Economics 的考量範圍？

A. 每次 API 呼叫所需的輸入 Token 數量
B. 生成報告內容所消耗的輸出 Token 費用
C. AI 模型訓練階段使用 Token 數量所需的 GPU 記憶體成本 ✓ 正確答案
D. 模型推理過程中的 Token 使用量統計

解析：

Token Economics 專指模型推理與生成過程中的 Token 使用量與費用。模型訓練階段的 GPU 記憶體成本屬於訓練成本，不屬於推理階段的 Token Economics 範圍。

關於 ChatGPT、Anthropic Claude、GitHub Copilot 等 AI 程式碼輔助工具的運作原理，下列敘述何者正確？

A. 這些工具基於大型語言模型，經由大量程式碼與文本訓練，透過預測下一個符號來生成程式碼，但不保證產生程式碼的正確性 ✓ 正確答案
B. GitHub Copilot 會在提供程式碼建議前執行並驗證該程式碼，確保其執行結果正確無誤
C. Anthropic Claude 的程式碼建議並非即時生成，而是從事先整理的已知解答資料庫中檢索而得
D. ChatGPT 內建完整的編譯器，可在輸出程式碼前自動編譯並更正所有語法與邏輯錯誤

解析：

AI 程式碼輔助工具（如 ChatGPT、Claude、Copilot）都基於大型語言模型，透過預測下一個 token 來生成程式碼。由於是統計預測，無法保證生成程式碼的正確性。