符記(Token)是什麼?

符記是大型語言模型處理文字時,不可分割的最小單位,它可以是一個字、詞,或者更小的子詞|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

符記(Token)是什麼? 自然語言處理大型語言模型

你有沒有想過,模型看一段文字時,究竟是整句一起看,還是一小塊一小塊看? 你可以把 token 想成模型讀文字時用的最小工作單位 它不一定等於一個字或一個詞,會跟分詞規則和語言有關 模型通常先把文字拆成 token,再拿這些 token 去做理解和生成

容易混淆

符記 vs 分詞 符記是拆完之後得到的單位 分詞是把文字拆成這些單位的過程 最關鍵的區別:結果和動作不要混在一起

符記 vs 字 一個字不一定只對應一個 token 一個 token 也不一定剛好是一個字 最關鍵的區別:token 是模型視角,不是字典視角

符記 vs 嵌入表示 符記是文字單位 嵌入表示是把單位變成向量 最關鍵的區別:先有 token,之後才有向量表示

記住這句就好

模型不是直接吃整句話,而是先吃 token。

實際案例

費用估算 你輸入越長的提示詞,token 數越多,API 計費和處理時間通常也越高

中文切分 「人工智慧」可能被切成一到多個 token,切法不同,模型看到的邊界也不同

算法與應用

| 切分單位 | 字、詞、子詞都可能成為 token | 不同語言規則不一樣 | | 上下文長度 | 模型一次能處理多少 token | 這會影響能記住多少內容 | | 成本計算 | 很多系統按 token 數計價 | 長輸入和長輸出都會增加成本 | | 錯誤來源 | 切分不佳會影響理解與生成 | 尤其在專有名詞和中文上更明顯 |

情境判斷

Q1(直覺題): 你把一大段報告丟給模型,它突然忘了前面內容,通常先看什麼?

先看 token 長度有沒有超過上下文限制。

Q2(判斷題): 你以為一個中文字一定等於一個 token,這個判斷對嗎?

不一定,要看詞彙表和分詞方式,中文常常不是一對一。

常見問題

token 越少越好嗎?

不一定,太少可能切得太粗,太多又會增加成本,重點是切分方式要適合任務。

token 和字元是一樣的嗎?

不是,字元是文字外觀,token 是模型處理用的單位。

為什麼不同模型的 token 數會不一樣?

因為各家詞表和分詞器不同,同一句話可能被切成不同長度。

範例考題

某市政府交通局計劃導入生成式 AI 技術來自動生成公車到站時間預測的文字報告,每日需處理約 50 萬筆交通資料並生成 1000 份報告。在評估導入成本時,團隊希望進行 Token Economics 分析(指模型推理與生成過程中,Token 使用量及其費用)。下列何者不屬於 Token Economics 的考量範圍?

  • A. 每次 API 呼叫所需的輸入 Token 數量
  • B. 生成報告內容所消耗的輸出 Token 費用
  • C. AI 模型訓練階段使用 Token 數量所需的 GPU 記憶體成本 ✓ 正確答案
  • D. 模型推理過程中的 Token 使用量統計

解析:

Token Economics 專指模型推理與生成過程中的 Token 使用量與費用。模型訓練階段的 GPU 記憶體成本屬於訓練成本,不屬於推理階段的 Token Economics 範圍。

關於 ChatGPT、Anthropic Claude、GitHub Copilot 等 AI 程式碼輔助工具的運作原理,下列敘述何者正確?

  • A. 這些工具基於大型語言模型,經由大量程式碼與文本訓練,透過預測下一個符號來生成程式碼,但不保證產生程式碼的正確性 ✓ 正確答案
  • B. GitHub Copilot 會在提供程式碼建議前執行並驗證該程式碼,確保其執行結果正確無誤
  • C. Anthropic Claude 的程式碼建議並非即時生成,而是從事先整理的已知解答資料庫中檢索而得
  • D. ChatGPT 內建完整的編譯器,可在輸出程式碼前自動編譯並更正所有語法與邏輯錯誤

解析:

AI 程式碼輔助工具(如 ChatGPT、Claude、Copilot)都基於大型語言模型,透過預測下一個 token 來生成程式碼。由於是統計預測,無法保證生成程式碼的正確性。