文本分類 是什麼?

Text Classification — 文本分類 的完整解釋

文本分類是自然語言處理中的一項任務,旨在將文本自動分配到預定義的類別中。它應用廣泛,例如垃圾郵件檢測、情感分析等。

容易混淆

文本分類 vs 自然語言處理 文本分類:偏向 把文字整理成模型可用的單位 自然語言處理:偏向 更大的 NLP 領域 最關鍵的區別:文本分類看的是「把文字整理成模型可用的單位」,自然語言處理看的是「更大的 NLP 領域」。

文本分類 vs 情感分析 文本分類:偏向 把文字整理成模型可用的單位 情感分析:偏向 情感分析任務 最關鍵的區別:文本分類看的是「把文字整理成模型可用的單位」,情感分析看的是「情感分析任務」。

記住這句就好

先切文字,再談語意。

實際案例

案例:客服信件先做詞幹或子詞切分 再送進分類模型,比直接硬吃原文更穩

案例:長篇會議紀錄先做摘要 管理者不用看完整文章,也能抓到重點

算法與應用

先把詞、子詞或詞幹整理好,模型才有穩定輸入 文字表示方法不同,後面的分類和搜尋效果會差很多 常見任務是分類、摘要、翻譯和關鍵詞萃取

情境判斷

Q1(直覺題): 你要把一堆客服留言分成抱怨、詢問和稱讚,應該先做什麼? → 先把文字切成模型能處理的單位,再做分類。

Q2(判斷題): 遇到超長中文句子和很多新詞時,還能沿用同一種切法嗎? → 看情況,切分方式要跟語言和任務一起調,不然效果可能會掉。

相關術語

常見問題

這類方法一定要先分詞嗎?

不一定,但大多數流程都需要某種切分或標記,否則模型很難穩定處理文字。

它和單純看詞頻有什麼不同?

它不只看出現次數,也會看字詞組合、子詞或上下文,能更接近語意。

什麼時候最容易出錯?

遇到新詞、長詞、專有名詞或多語混雜文本時,切分和表示方式最容易影響結果。