BM25（BM25算法）是什麼？完整定義與解說

Q: BM25 適合做語意搜尋嗎？

單獨用不夠，因為它主要是詞字面匹配。

你在做搜尋排序，想把最相關的文件排前面時，你會怎麼判斷它真正的作用？

你可以把它想成 BM25 (Best Matching 25) 是一種用於資訊檢索的排序函數，它基於詞頻和逆文檔頻率，並考慮了文檔長度的影響，以提高檢索的準確性。

在你在做搜尋排序，想把最相關的文件排前面時這種情境裡，這個概念會直接影響你怎麼設計、怎麼評估、怎麼上線。

容易混淆

BM25 vs TF-IDF BM25 在 TF-IDF 基礎上加了詞頻飽和和文件長度歸一化。

BM25 vs 向量檢索 BM25 看字詞匹配，向量檢索看語意相似，兩者強項不同。

BM25 vs 關鍵字堆疊 BM25 不只是數次數，還會看稀有度和文件長短。

記住這句就好

先看它要解決的是什麼問題，再看它是不是最合適的方法。

實際案例

案例 1：站內搜尋 使用者輸入產品型號時，BM25 可以快速把含有關鍵字的頁面排前面。

案例 2：FAQ 找答案 問題和答案中的關鍵詞對上時，BM25 很適合做第一層召回。

算法與應用

面向重點

核心詞頻越高不一定越重要，還要看詞稀不稀有、文件長不長。

優點簡單、穩定、可解釋，對文字檢索很實用。

注意遇到同義詞或語意改寫時，單靠 BM25 可能不夠。

面向	重點
核心	詞頻越高不一定越重要，還要看詞稀不稀有、文件長不長。
優點	簡單、穩定、可解釋，對文字檢索很實用。
注意	遇到同義詞或語意改寫時，單靠 BM25 可能不夠。

情境判斷

Q1（判斷題）： 一篇很長的文件重複很多次關鍵字，BM25 會一直把它排第一嗎？ → 不會完全照次數線性加分，因為詞頻會飽和，文件長度也會被校正。

Q2（判斷題）： 如果使用者查的是同義詞，BM25 還一定有用嗎？ → 有用但不夠，這時常會再搭配語意檢索。

常見問題

BM25 和 TF-IDF 差在哪？

BM25 多了詞頻飽和和文件長度修正，搜尋排序通常更穩。

BM25 適合做語意搜尋嗎？

單獨用不夠，因為它主要是詞字面匹配。

參數 k1 和 b 是什麼？

k1 控制詞頻飽和，b 控制文件長度影響。

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

常見問題

相關術語

延伸學習

資料來源與參考依據