關係抽取 是什麼?

Relation Extraction — 關係抽取 的完整解釋

關係抽取旨在自動識別文本中實體之間的語義關係,例如「出生於」或「工作於」,是知識圖譜構建的關鍵技術。

容易混淆

關係抽取 vs 命名實體識別

關係抽取找的是實體之間的關聯 NER 找的是人名、地名、組織這些實體本身 最關鍵的區別是有沒有判斷關係。

關係抽取 vs 三元組抽取

關係抽取常專注在兩個實體的語義關係 三元組抽取會進一步整理成主詞、關係、受詞 最關鍵的區別是輸出形式是不是固定成三元組。

記住這句就好

先找出人和物,再抓出人和物之間的關係。

實際案例

知識圖譜整理 把新聞裡的「A 公司收購 B 公司」抽成結構化資料後,系統就能查出誰收購了誰。

合約審查 把合約中的「甲方委託乙方」抓出來後,法務就能更快比對責任關係。

算法與應用

常見流程是先做 NER,再做關係分類,最後把關係寫回資料庫或知識圖譜。 模型可以用規則、傳統分類器或 Transformer,差別在於對上下文的理解深度。 資料標註很吃重,因為同一句話可能有多種關係,標準要先定清楚。

情境判斷

Q1(直覺題):句子裡先標出「台積電」和「張忠謀」,這一步比較像什麼?

→ 這比較像命名實體識別,還沒進到關係抽取。

Q2(判斷題):如果句子裡有兩個人名,但沒有明確寫出兩人關係,能不能硬抽?

→ 不能硬抽,最好標成未知或無關係,因為關係抽取要的是可證明的語義關聯,不是猜測。

相關術語

常見問題

關係抽取一定要先做 NER 嗎?

A:通常會先做 NER,因為先知道實體是誰,後面才比較好判斷它們之間的關係。

關係抽取常用什麼指標?

A:常看精確率、召回率和 F1,因為它既要找得到關係,也要少誤判。

怎麼提升關係抽取效果?

A:除了更好的模型,也要靠更乾淨的標註資料和更清楚的關係定義。