你在做搜尋排序,想把最相關的文件排前面時,你會怎麼判斷它真正的作用?
你可以把它想成 BM25 (Best Matching 25) 是一種用於資訊檢索的排序函數,它基於詞頻和逆文檔頻率,並考慮了文檔長度的影響,以提高檢索的準確性。
在 你在做搜尋排序,想把最相關的文件排前面時 這種情境裡,這個概念會直接影響你怎麼設計、怎麼評估、怎麼上線。
容易混淆
BM25 vs TF-IDF BM25 在 TF-IDF 基礎上加了詞頻飽和和文件長度歸一化。
BM25 vs 向量檢索 BM25 看字詞匹配,向量檢索看語意相似,兩者強項不同。
BM25 vs 關鍵字堆疊 BM25 不只是數次數,還會看稀有度和文件長短。
記住這句就好
先看它要解決的是什麼問題,再看它是不是最合適的方法。
實際案例
案例 1:站內搜尋 使用者輸入產品型號時,BM25 可以快速把含有關鍵字的頁面排前面。
案例 2:FAQ 找答案 問題和答案中的關鍵詞對上時,BM25 很適合做第一層召回。
算法與應用
面向 重點 核心 詞頻越高不一定越重要,還要看詞稀不稀有、文件長不長。 優點 簡單、穩定、可解釋,對文字檢索很實用。 注意 遇到同義詞或語意改寫時,單靠 BM25 可能不夠。
情境判斷
Q1(判斷題): 一篇很長的文件重複很多次關鍵字,BM25 會一直把它排第一嗎? → 不會完全照次數線性加分,因為詞頻會飽和,文件長度也會被校正。
Q2(判斷題): 如果使用者查的是同義詞,BM25 還一定有用嗎? → 有用但不夠,這時常會再搭配語意檢索。
常見問題
BM25 和 TF-IDF 差在哪?
BM25 多了詞頻飽和和文件長度修正,搜尋排序通常更穩。
BM25 適合做語意搜尋嗎?
單獨用不夠,因為它主要是詞字面匹配。
參數 k1 和 b 是什麼?
k1 控制詞頻飽和,b 控制文件長度影響。