---
title: "TF-IDF（Term Frequency-Inverse Document Frequency）"
slug: term-frequency-inverse-document-frequency
language: zh-TW
source: https://aiterms.tw/terms/term-frequency-inverse-document-frequency
updated_at: 2026-04-29
tags: [自然語言處理, 特徵工程, 資料處理]
ipas_term: false
---

# TF-IDF（Term Frequency-Inverse Document Frequency）

> **你有沒有想過，文字送進模型前，為什麼總要先切一刀、再整理一下？**
>
> 你可以把它想成把文字整理成模型看得懂的單位。
> TF-IDF 的重點是 衡量一個詞對文件的重要性：在這篇文件中出現多（TF 高）但在其他文件中少見（IDF 高）的詞最重要
> 它重要，是因為後面的分類、摘要、搜尋或生成，幾乎都靠這一步打底。

### 容易混淆
> **TF-IDF vs 詞袋模型**
> TF-IDF：偏向 把文字整理成模型可用的單位
> 詞袋模型：偏向 只看詞出現，不看順序
> 最關鍵的區別：TF-IDF看的是「把文字整理成模型可用的單位」，詞袋模型看的是「只看詞出現，不看順序」。
>
> **TF-IDF vs 餘弦相似度**
> TF-IDF：偏向 把文字整理成模型可用的單位
> 餘弦相似度：偏向 衡量向量角度的相似度
> 最關鍵的區別：TF-IDF看的是「把文字整理成模型可用的單位」，餘弦相似度看的是「衡量向量角度的相似度」。
>

### 記住這句就好
> 先切文字，再談語意。

### 實際案例
> **案例：客服信件先做詞幹或子詞切分**
> 再送進分類模型，比直接硬吃原文更穩
>
> **案例：長篇會議紀錄先做摘要**
> 管理者不用看完整文章，也能抓到重點
>

### 算法與應用
> 先把詞、子詞或詞幹整理好，模型才有穩定輸入
> 文字表示方法不同，後面的分類和搜尋效果會差很多
> 常見任務是分類、摘要、翻譯和關鍵詞萃取

### 情境判斷
> **Q1（直覺題）：** 你要把一堆客服留言分成抱怨、詢問和稱讚，應該先做什麼？
> → 先把文字切成模型能處理的單位，再做分類。
>
> **Q2（判斷題）：** 遇到超長中文句子和很多新詞時，還能沿用同一種切法嗎？
> → 看情況，切分方式要跟語言和任務一起調，不然效果可能會掉。
>

### 常見問題
> **Q：這類方法一定要先分詞嗎？**
> 不一定，但大多數流程都需要某種切分或標記，否則模型很難穩定處理文字。
>
> **Q：它和單純看詞頻有什麼不同？**
> 它不只看出現次數，也會看字詞組合、子詞或上下文，能更接近語意。
>
> **Q：什麼時候最容易出錯？**
> 遇到新詞、長詞、專有名詞或多語混雜文本時，切分和表示方式最容易影響結果。
>

### 相關術語
> - **詞袋模型**：先看它，能補基礎
> - **餘弦相似度**：對照它，能分清邊界
> - **語料庫**：它常一起出現
> - **BM25算法**：它能補常見使用情境

---

來源：https://aiterms.tw/terms/term-frequency-inverse-document-frequency
快查頁：https://aiterms.tw/terms/term-frequency-inverse-document-frequency
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-term-frequency-inverse-document-frequency