你有沒有看過一段文字,想知道哪些字是人名、地名、公司名? 你可以把它想成替句子畫重點,把專有名詞圈出來,還要標清楚它是什麼類型。 命名實體辨識不是只找名詞,而是要把文字中的特定資訊標成可用資料。 這也讓它很適合先拿到可用答案,再慢慢把精度往上推。
容易混淆
命名實體辨識 vs 文本分類 命名實體辨識:標每個詞是哪一類 文本分類:判斷整段文字屬於哪一類 最關鍵的區別:先看它是在比什麼,再看它怎麼做。
命名實體辨識 vs 實體鏈接 命名實體辨識:只找出實體片段 實體鏈接:還要把片段連到知識庫中的正確條目 最關鍵的區別:先看它是在比什麼,再看它怎麼做。
記住這句就好
找出名字,還要標出它屬於什麼。
實際案例
新聞分析 從新聞中抓出人名、公司名、地名,方便做事件整理。
客服紀錄 從對話中抽出產品名稱、日期、地點,讓後續流程自動化。
算法與應用
實作上,NER 常把問題視為序列標註。 模型不只要知道詞本身,還要看上下文,才能判斷同一個詞是不是實體。 像「蘋果」這種詞,有時是公司,有時是水果,語境很重要。
情境判斷
Q1(直覺題): 你要從履歷裡找出公司、學校、日期,這是在做什麼?
命名實體辨識,因為你要把特定資訊片段標出來。
Q2(判斷題): 同樣出現「台大」,在新聞和聊天紀錄裡一定都算學校嗎?
不一定,要看上下文,NER 不能只看單字表面。
常見問題
它只認人名嗎?
不是,地名、組織名、日期、金額都常是實體。
它和關鍵字抽取一樣嗎?
不一樣,關鍵字抽取重點是摘要,NER 重點是分類標註。
為什麼上下文很重要?
因為很多字在不同句子裡會有不同身分。