你有沒有在你在搜尋引擎裡輸入關鍵字,想快速找出包含那些詞的文件,發現只看表面常常不夠?
你可以把它想成用稀疏向量做比對,重點在詞彙是否出現、出現得多不多。
它速度快、可解釋,也很適合大規模文本搜尋。
你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。
容易混淆
稠密檢索 稀疏檢索像用關鍵字搜尋,只找詞彙匹配。 稠密檢索則像用語意搜尋,理解查詢和文件的「意思」是否相關,即使詞彙不完全一樣也能找到。稀疏檢索比較直接,但可能錯過語意相關但詞彙不同的結果。
最關鍵的區別:先看它是在比意思、比結構,還是在做任務輸出。
記住這句就好
看詞彙匹配和權重,不看深層語意,就是稀疏檢索。
實際案例
法規搜尋常用 BM25 找出包含精確條文用語的結果。 工程文件搜尋時,關鍵字和專有名詞通常比語意相似更重要。
算法與應用
典型方法包括倒排索引、TF-IDF 和 BM25。 它強在效率和可控性,但對同義改寫的理解通常不如稠密檢索。
情境判斷
Q1(直覺題): 你要找文件裡明確出現過的詞,這種方法適合嗎?
→ 適合。它就是為詞彙匹配而生。
Q2(判斷題): 如果使用者問法很多變、常常改寫同一件事,還只靠它嗎?
→ 看情況。這時候常會搭配語意搜尋或混合搜尋。
常見問題
稀疏檢索和密集檢索有什麼區別?
稀疏檢索使用稀疏向量表示文本,主要基於詞彙匹配,計算效率高但語義理解能力較弱。密集檢索使用密集向量(如詞嵌入)表示文本,能捕捉語義信息,但計算成本較高。選擇取決於應用場景和數據規模。
如何提高稀疏檢索的準確性?
可以通過以下方法提高稀疏檢索的準確性:優化文本預處理(如詞幹提取、停用詞去除)、使用更有效的權重計算方法(如BM25)、引入詞彙擴展或同義詞替換、以及結合其他技術(如知識圖譜)。
稀疏檢索適用於哪些應用場景?
稀疏檢索適用於需要處理大規模文本數據、對計算效率有較高要求、且對可解釋性有要求的應用場景,例如搜索引擎、問答系統、推薦系統、信息過濾和專利檢索等。