你有沒有讀過一段文章,裡面的「他」「她」「這個東西」讓你一直回頭找前文?
你可以把共指解析想成「幫文章找出誰在指誰」:模型要判斷不同說法是不是同一個人、同一件事。
它很重要,因為語言不是每次都把名字重講一遍,能把代名詞和名詞短語接起來,機器才真的讀得懂上下文。
容易混淆
共指解析 vs 命名實體識別 vs 指代消解
共指解析:找出文本中指向同一實體的所有提及
命名實體識別:標出人名、地名、組織名等
指代消解:和共指解析很接近,常被拿來交叉使用
最關鍵的區別:NER 是「標出名字」,共指解析是「把名字和代詞接起來」。
記住這句就好
找到「他」指的是誰,文章才算真正讀通。
實際案例
新聞摘要
前:系統只看見「他」「她」,不知道指的是哪位人物
後:把代詞對回前文的人名,摘要就不會斷線
客服對話
前:客戶說「它壞了」,系統不知道它是手機還是耳機
後:透過共指解析連到前一句的商品名稱,回覆就更準
算法與應用
共指解析常和語意分析、實體鏈接、語言模型與序列標註一起使用
它在文件理解、知識抽取、對話系統和資訊擷取裡都很有價值
難點在於中文和英文都常省略主詞,模型要靠上下文推斷很多隱含關係
情境判斷
Q1(直覺題): 文章裡的「她」指回前面的「王小姐」,這是在做共指解析嗎?
→ 是,這就是最典型的案例。
Q2(判斷題): 只要找出所有人名,就代表已經完成共指解析嗎?
→ 不是,還要把代詞和同一實體的不同提及一起串起來。
常見問題
共指解析只處理人嗎?
不只,人、地點、物件和事件都可能成為共指目標。
它和語意分析一樣嗎?
不一樣,語意分析更廣,共指解析更聚焦在指稱關係。
為什麼這麼難?
因為很多指代要靠上下文、常識和句法一起判斷。