---
title: "稀疏檢索（Sparse Retrieval）"
slug: sparse-retrieval
language: zh-TW
source: https://aiterms.tw/terms/sparse-retrieval
updated_at: 2026-04-29
tags: [自然語言處理, 推薦系統, 資料處理, AI應用, AI基礎, 資訊安全]
ipas_term: false
---

# 稀疏檢索（Sparse Retrieval）

> **你有沒有在你在搜尋引擎裡輸入關鍵字，想快速找出包含那些詞的文件，發現只看表面常常不夠？**
>
> 你可以把它想成用稀疏向量做比對，重點在詞彙是否出現、出現得多不多。
>
> 它速度快、可解釋，也很適合大規模文本搜尋。
>
> 你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

### 容易混淆
> **稠密檢索**
> 稀疏檢索像用關鍵字搜尋，只找詞彙匹配。
> 稠密檢索則像用語意搜尋，理解查詢和文件的「意思」是否相關，即使詞彙不完全一樣也能找到。稀疏檢索比較直接，但可能錯過語意相關但詞彙不同的結果。
>
> 最關鍵的區別：先看它是在比意思、比結構，還是在做任務輸出。

### 記住這句就好
> 看詞彙匹配和權重，不看深層語意，就是稀疏檢索。

### 實際案例
> 法規搜尋常用 BM25 找出包含精確條文用語的結果。
> 工程文件搜尋時，關鍵字和專有名詞通常比語意相似更重要。

### 算法與應用
> 典型方法包括倒排索引、TF-IDF 和 BM25。
> 它強在效率和可控性，但對同義改寫的理解通常不如稠密檢索。

### 情境判斷
> **Q1（直覺題）：** 你要找文件裡明確出現過的詞，這種方法適合嗎？
>
> → 適合。它就是為詞彙匹配而生。
>
> **Q2（判斷題）：** 如果使用者問法很多變、常常改寫同一件事，還只靠它嗎？
>
> → 看情況。這時候常會搭配語意搜尋或混合搜尋。

### 常見問題
> **Q：稀疏檢索和密集檢索有什麼區別？**
> 稀疏檢索使用稀疏向量表示文本，主要基於詞彙匹配，計算效率高但語義理解能力較弱。密集檢索使用密集向量（如詞嵌入）表示文本，能捕捉語義信息，但計算成本較高。選擇取決於應用場景和數據規模。
>
> **Q：如何提高稀疏檢索的準確性？**
> 可以通過以下方法提高稀疏檢索的準確性：優化文本預處理（如詞幹提取、停用詞去除）、使用更有效的權重計算方法（如BM25）、引入詞彙擴展或同義詞替換、以及結合其他技術（如知識圖譜）。
>
> **Q：稀疏檢索適用於哪些應用場景？**
> 稀疏檢索適用於需要處理大規模文本數據、對計算效率有較高要求、且對可解釋性有要求的應用場景，例如搜索引擎、問答系統、推薦系統、信息過濾和專利檢索等。

### 相關術語
> - **BM25算法**：稀疏檢索最典型的實作之一。
> - **TF-IDF**：TF-IDF 是理解稀疏檢索最好的起點。
> - **稠密檢索模型**：先懂它，才知道稀疏檢索和語意檢索差在哪。
> - **混合搜尋**：實務搜尋常把稀疏和稠密一起混用。
> - **向量資料庫**：如果你想把語意搜尋真的做成系統，這是下一站。

---

來源：https://aiterms.tw/terms/sparse-retrieval
快查頁：https://aiterms.tw/terms/sparse-retrieval
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-sparse-retrieval