你有沒有想過,文字送進模型前,為什麼總要先切一刀、再整理一下?
你可以把它想成把文字整理成模型看得懂的單位。 次詞單元化 的重點是 次詞單元化是將單詞拆分為更小的子單元(次詞)的技術,用於解決詞彙量過大和未登錄詞(OOV)問題,提升模型泛化能力。 它重要,是因為後面的分類、摘要、搜尋或生成,幾乎都靠這一步打底。
容易混淆
次詞單元化 vs 分詞 次詞單元化:偏向 把文字整理成模型可用的單位 分詞:偏向 把文字切開的前置步驟 最關鍵的區別:次詞單元化看的是「把文字整理成模型可用的單位」,分詞看的是「把文字切開的前置步驟」。
次詞單元化 vs 語言模型 次詞單元化:偏向 把文字整理成模型可用的單位 語言模型:偏向 會預測文字的基礎模型 最關鍵的區別:次詞單元化看的是「把文字整理成模型可用的單位」,語言模型看的是「會預測文字的基礎模型」。
記住這句就好
先切文字,再談語意。
實際案例
案例:客服信件先做詞幹或子詞切分 再送進分類模型,比直接硬吃原文更穩
案例:長篇會議紀錄先做摘要 管理者不用看完整文章,也能抓到重點
算法與應用
先把詞、子詞或詞幹整理好,模型才有穩定輸入 文字表示方法不同,後面的分類和搜尋效果會差很多 常見任務是分類、摘要、翻譯和關鍵詞萃取
情境判斷
Q1(直覺題): 你要把一堆客服留言分成抱怨、詢問和稱讚,應該先做什麼? → 先把文字切成模型能處理的單位,再做分類。
Q2(判斷題): 遇到超長中文句子和很多新詞時,還能沿用同一種切法嗎? → 看情況,切分方式要跟語言和任務一起調,不然效果可能會掉。
常見問題
這類方法一定要先分詞嗎?
不一定,但大多數流程都需要某種切分或標記,否則模型很難穩定處理文字。
它和單純看詞頻有什麼不同?
它不只看出現次數,也會看字詞組合、子詞或上下文,能更接近語意。
什麼時候最容易出錯?
遇到新詞、長詞、專有名詞或多語混雜文本時,切分和表示方式最容易影響結果。