RAG 檢索階段最關鍵的挑戰是什麼?
在自然語言處理中,檢索增強生成(Retrieval-Augmented Generation,RAG)是一種結合語言模型與向量搜尋的技術,可有效減少模型知識過時與產生幻覺的問題。若要建立一套高效能的 RAG 系統,下列何者為在「檢索階段」最關鍵的挑戰?
RAG(檢索增強生成)是一種「先去資料庫查資料、再讓語言模型回答」的技術。它能解決 AI 亂說話(幻覺)和知識過期的問題。
問你:在 RAG 的「檢索階段」,最難搞的挑戰是什麼?
一句話總結
RAG 檢索階段最關鍵的挑戰:向量搜尋找到的文件可能語意相似但答非所問,也就是「查詢意圖」和「語意相似度」之間的落差。光靠向量距離近,不代表真的和問題有關。
先感受問題:問了 AI,它去查了,但查錯了
假設「法律通」公司建了一套 RAG 系統,知識庫裡有數萬份合約範本與法規文件。使用者小美問:
系統把這句話轉成向量,去知識庫裡找「最相似的」文件。向量搜尋找到了:
- 「租約期間內房東的義務」(語意相似:都有「租約」「房東」)
- 「提前終止租約的違約條款」(語意相似:有「提前」「租約」)
- 「三個月預告期的法規解釋」(語意最近)
但小美真正想問的是:「強制收回房子」在法律上合不合法。向量找到的文件語意接近,但沒有一篇直接回答「房東能不能強制收回」這個意圖。
結果 AI 拿著這些「語意相似但答非所問」的文件生成回答,給出了一個聽起來有理但根本沒對準問題的答案。
這就是 RAG 檢索階段的核心挑戰:語意相似 ≠ 意圖符合。
純向量搜尋為什麼搞不定「意圖」
向量搜尋(向量相似度搜尋)把文字轉成數字向量,找距離最近的幾筆,但它天生有五個弱點:
- 語意相似但意圖不同:「蘋果公司財報」和「蘋果種植方法」的向量距離可能比你想像的近,因為「蘋果」這個詞把它們拉在一起。
- 查詢太短、訊息太稀疏:使用者打「退租」兩個字,向量化後訊號很弱,找到的文件可能天馬行空。
- 專業術語的歧義:「終止」在勞工法裡是解僱,在合約法裡是解除契約,向量不分。
- 否定句失效:「房東不能收回」和「房東能收回」的向量非常接近,模型分不清肯定和否定。
- 多跳推理需求:使用者問的問題需要串連多份文件才能回答,但向量搜尋每次只找單篇最相似的,串不起來。
這五個問題都指向同一件事:向量距離只代表「表面語意相似」,不代表「真的有用」。
為什麼「意圖落差」才是檢索階段的核心挑戰
回到「法律通」的小美案例。解決意圖落差有幾條路:
重排序(Re-ranking):先用向量搜尋拿 Top-20 個候選文件,再用一個更精準的模型(Cross-Encoder)對每份文件重新打分,確保最後送進語言模型的 Top-3 是真正和問題相關的。
查詢改寫(Query Rewriting):把「房東可以在租約到期前三個月收回房子嗎」改寫成幾個更精確的子查詢,例如「提前終止租約合法性」「強制收回房屋法律依據」,多角度搜尋。
混合搜尋(Hybrid Search):向量搜尋(抓語意)加上關鍵字搜尋(BM25,抓精確詞),兩者分數加總,讓意圖更明確的詞也能被找到。
這些解法的共同核心都是:彌補「語意相似但意圖無關」這個根本落差。
這就是選項 D 講的:避免向量檢索結果僅具語意相似但與查詢意圖無實質關聯的情況。
技術版:RAG 檢索階段的精確機制與意圖對齊方法
中級考試大概率會考程式碼跟公式,所以這部分你還是要學。但如果現在學起來很痛苦,可以先跳過,等讀完其他題目回頭再來。
本題沒有程式碼或數學公式,技術版重點放在 RAG 檢索架構的背景知識。
RAG 的完整流程分三層:
- 索引層(Indexing):把知識庫文件切塊(Chunking),用嵌入模型轉成向量,存進向量資料庫(如 Pinecone、Weaviate、Chroma)。
- 檢索層(Retrieval):接到使用者查詢,轉成向量,做近似最近鄰搜尋(ANN),拿回 Top-K 文件。這一層出問題,後面全歪。
- 生成層(Generation):把 Top-K 文件加上查詢,一起送進語言模型(LLM),生成最終回答。
意圖落差的技術根因:
向量相似度計算的是「餘弦相似度」(Cosine Similarity)或「內積」(Inner Product)。這個數字反映的是兩個向量在高維空間的方向相近程度,本質上是「詞語分布的統計相似性」,不是「語意是否回答了問題」。
三種主流解法的技術細節:
- Re-ranking(重排序):用 Cross-Encoder 模型同時看 Query 和 Document,做 Pair-wise 分類,輸出相關分數。比 Bi-Encoder(分別把查詢和文件轉成向量再算距離)準確得多,但速度慢,只適合對 Top-K 做精排。
- HyDE(Hypothetical Document Embeddings):先讓 LLM 根據查詢生成一份「假設答案」,再用這份假設答案的向量去搜尋,找到和「答案長相相似」的文件,比查詢本身向量更精準。
- Hybrid Search:BM25 分數(稀疏向量,關注精確關鍵字)加上 Dense 向量分數,用 RRF(Reciprocal Rank Fusion)或線性加權合併,兩種訊號互補。
為什麼其他選項是錯的
A確保檢索到的文件能被完整納入語言模型的上下文視窗(Context Window)中進行生成
語言模型有「上下文長度上限」(例如 4096 個 token),如果找回來的文件太長,塞不進去就會被截斷,影響生成品質。
這是「生成階段」要處理的問題,不是「檢索階段」的挑戰。檢索只負責找文件,文件要怎麼塞進 Context Window、要不要做摘要壓縮,是後面生成端的事。選 A 是把生成問題貼到檢索階段的標籤上。
知道 Context Window 這個痛點但沒有區分 RAG 各階段職責的考生。記住:RAG 三個階段有清楚分工,Context Window 是生成層的問題,不是檢索層的問題。
B選擇使用 Faiss 或 ScaNN 等近似最近鄰搜尋函式庫
Faiss(Facebook AI Research 開源)和 ScaNN(Google 開源)都是做向量搜尋的工具,選哪個影響檢索速度和準確率。
選哪個函式庫是「工程實作決策」,不是 RAG 系統的核心挑戰。Faiss 和 ScaNN 都很成熟,選錯頂多影響效能,不會造成根本性的回答品質問題。真正的挑戰是「找到的文件有沒有回答問題」,工具選擇是次要的。
看過 RAG 實作教學、知道 Faiss 這個名詞,覺得「工具選對才能做好 RAG」的考生。工具是手段,意圖對齊才是目的。
C降低嵌入模型(Embedding Model)在高維空間中的計算成本與記憶體占用
嵌入模型把文字轉成幾百到幾千維的向量,高維向量又耗記憶體又耗運算,這是工程上的資源問題。
這是「效率問題」,不是「正確性問題」。就算計算成本很高,只要捱得過去,系統還是能找到正確的文件。但如果意圖落差沒解決,就算系統快到毫秒級,找到的文件還是答非所問。核心挑戰看的是「找得準不準」,不是「找得快不快」。
做過 ML 工程、對記憶體和運算成本敏感的考生,容易把工程痛點當成系統核心挑戰。記住:考試問的是「最關鍵的挑戰」,正確性問題永遠優先於效率問題。
同個考點下次怎麼變形
如果 RAG 知識庫只有 10 份文件,「意圖落差」問題還嚴重嗎?
文件少的時候,向量搜尋找錯的機會應該也少?
文件少時意圖落差問題確實較輕,但不會消失。反而在知識庫小時,更容易出現「把不相關的那幾篇全找回來」的情況。真正讓意圖落差嚴重的,是知識庫大、文件類型雜、查詢用語歧義多這三個條件同時存在。
有沒有一種情況,語意相似但意圖不符反而是好事?
語意相似找回來的東西都是廢料?
有,在「探索式查詢」(Exploratory Search)場景下,使用者本來就不確定自己要找什麼,這時語意相似的文件可能激發新想法,比精準命中更有用。但在 RAG 的問答場景裡,使用者有明確問題,意圖對齊才是核心目標。
什麼是「Agentic RAG」?它怎麼更好地解決意圖落差?
普通 RAG 查一次、答一次,能不能讓 AI 自己決定要不要再查?
Agentic RAG 讓語言模型扮演「代理人」角色:模型看了第一輪檢索結果,如果覺得不夠,自己決定要改寫查詢、再搜一次,或是拆解成子問題分批查。這樣的迭代檢索能更好地對準意圖,但代價是更多 API 呼叫和更長的回應時間。
電商推薦系統也有「語意相似但意圖不符」的問題嗎?
推薦系統找「和你買過的東西相似的」,應該也會踩到這個坑?
完全一樣的問題,在推薦領域叫「相關性問題」(Relevance Problem)。你買了一台相機,系統推薦另一台相機(語意相似),但你其實是要配件,不是要再買一台機身。解法也類似:結合使用者行為訊號(購買、點擊、收藏)和語意向量,讓推薦結果更貼近意圖。
怎麼衡量 RAG 的檢索品質?有哪些指標?
看最終答案對不對就知道了?
可以更精準地拆開評估。Recall@K 衡量「正確文件有沒有被找進 Top-K」,MRR(Mean Reciprocal Rank,平均倒數排名)衡量「正確文件排第幾名」,Context Precision 衡量「找到的 K 篇裡有幾篇真的有用」。RAGAS 是一個專為 RAG 評估設計的框架,同時評估檢索層和生成層的品質。
想再往下看,這 5 個
- 檢索增強生成(Retrieval-Augmented Generation)正解考點所在:結合向量搜尋與語言模型的架構,讓模型查資料再回答,但檢索品質決定最終答案正確性。
- 向量資料庫(Vector Database)RAG 知識庫的核心元件,儲存文件嵌入向量並支援近似最近鄰搜尋,是「語意相似但意圖不符」問題的發生地。
- 混合搜尋(Hybrid Search)同時用向量搜尋(語意)和 BM25(關鍵字精確匹配)的解法,彌補單純向量搜尋的意圖落差,是 RAG 最常見改善手段。
- AI 幻覺(Hallucination)語言模型缺乏依據時自己發明答案的現象,RAG 的目的正是提供真實文件來減少幻覺,也是此題情境的上位問題。
- 嵌入表示(Embedding)將文字轉換為高維向量以計算語意相似度的技術,RAG 檢索的數學基礎,也是「語意相似 ≠ 意圖相符」問題的根源。