iPAS AI 應用規劃師中級　科目一

RAG 檢索階段最關鍵的挑戰是什麼？

原題 17

在自然語言處理中，檢索增強生成（Retrieval-Augmented Generation，RAG）是一種結合語言模型與向量搜尋的技術，可有效減少模型知識過時與產生幻覺的問題。若要建立一套高效能的 RAG 系統，下列何者為在「檢索階段」最關鍵的挑戰？

白話

RAG（檢索增強生成）是一種「先去資料庫查資料、再讓語言模型回答」的技術。它能解決 AI 亂說話（幻覺）和知識過期的問題。

問你：在 RAG 的「檢索階段」，最難搞的挑戰是什麼？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

RAG 檢索階段最關鍵的挑戰：向量搜尋找到的文件可能語意相似但答非所問，也就是「查詢意圖」和「語意相似度」之間的落差。光靠向量距離近，不代表真的和問題有關。

02　情境

先感受問題：問了 AI，它去查了，但查錯了

假設「法律通」公司建了一套 RAG 系統，知識庫裡有數萬份合約範本與法規文件。使用者小美問：

「我的房東可以在租約到期前三個月收回房子嗎？」

系統把這句話轉成向量，去知識庫裡找「最相似的」文件。向量搜尋找到了：

「租約期間內房東的義務」（語意相似：都有「租約」「房東」）
「提前終止租約的違約條款」（語意相似：有「提前」「租約」）
「三個月預告期的法規解釋」（語意最近）

但小美真正想問的是：「強制收回房子」在法律上合不合法。向量找到的文件語意接近，但沒有一篇直接回答「房東能不能強制收回」這個意圖。

結果 AI 拿著這些「語意相似但答非所問」的文件生成回答，給出了一個聽起來有理但根本沒對準問題的答案。

這就是 RAG 檢索階段的核心挑戰：語意相似 ≠ 意圖符合。

03　對照

純向量搜尋為什麼搞不定「意圖」

向量搜尋（向量相似度搜尋）把文字轉成數字向量，找距離最近的幾筆，但它天生有五個弱點：

語意相似但意圖不同：「蘋果公司財報」和「蘋果種植方法」的向量距離可能比你想像的近，因為「蘋果」這個詞把它們拉在一起。
查詢太短、訊息太稀疏：使用者打「退租」兩個字，向量化後訊號很弱，找到的文件可能天馬行空。
專業術語的歧義：「終止」在勞工法裡是解僱，在合約法裡是解除契約，向量不分。
否定句失效：「房東不能收回」和「房東能收回」的向量非常接近，模型分不清肯定和否定。
多跳推理需求：使用者問的問題需要串連多份文件才能回答，但向量搜尋每次只找單篇最相似的，串不起來。

這五個問題都指向同一件事：向量距離只代表「表面語意相似」，不代表「真的有用」。

04　解法

為什麼「意圖落差」才是檢索階段的核心挑戰

回到「法律通」的小美案例。解決意圖落差有幾條路：

重排序（Re-ranking）：先用向量搜尋拿 Top-20 個候選文件，再用一個更精準的模型（Cross-Encoder）對每份文件重新打分，確保最後送進語言模型的 Top-3 是真正和問題相關的。

查詢改寫（Query Rewriting）：把「房東可以在租約到期前三個月收回房子嗎」改寫成幾個更精確的子查詢，例如「提前終止租約合法性」「強制收回房屋法律依據」，多角度搜尋。

混合搜尋（Hybrid Search）：向量搜尋（抓語意）加上關鍵字搜尋（BM25，抓精確詞），兩者分數加總，讓意圖更明確的詞也能被找到。

這些解法的共同核心都是：彌補「語意相似但意圖無關」這個根本落差。

這就是選項 D 講的：避免向量檢索結果僅具語意相似但與查詢意圖無實質關聯的情況。

技術版：RAG 檢索階段的精確機制與意圖對齊方法

中級考試大概率會考程式碼跟公式，所以這部分你還是要學。但如果現在學起來很痛苦，可以先跳過，等讀完其他題目回頭再來。

本題沒有程式碼或數學公式，技術版重點放在 RAG 檢索架構的背景知識。

RAG 的完整流程分三層：

索引層（Indexing）：把知識庫文件切塊（Chunking），用嵌入模型轉成向量，存進向量資料庫（如 Pinecone、Weaviate、Chroma）。
檢索層（Retrieval）：接到使用者查詢，轉成向量，做近似最近鄰搜尋（ANN），拿回 Top-K 文件。這一層出問題，後面全歪。
生成層（Generation）：把 Top-K 文件加上查詢，一起送進語言模型（LLM），生成最終回答。

意圖落差的技術根因：

向量相似度計算的是「餘弦相似度」（Cosine Similarity）或「內積」（Inner Product）。這個數字反映的是兩個向量在高維空間的方向相近程度，本質上是「詞語分布的統計相似性」，不是「語意是否回答了問題」。

三種主流解法的技術細節：

Re-ranking（重排序）：用 Cross-Encoder 模型同時看 Query 和 Document，做 Pair-wise 分類，輸出相關分數。比 Bi-Encoder（分別把查詢和文件轉成向量再算距離）準確得多，但速度慢，只適合對 Top-K 做精排。
HyDE（Hypothetical Document Embeddings）：先讓 LLM 根據查詢生成一份「假設答案」，再用這份假設答案的向量去搜尋，找到和「答案長相相似」的文件，比查詢本身向量更精準。
Hybrid Search：BM25 分數（稀疏向量，關注精確關鍵字）加上 Dense 向量分數，用 RRF（Reciprocal Rank Fusion）或線性加權合併，兩種訊號互補。

05　陷阱

為什麼其他選項是錯的

A確保檢索到的文件能被完整納入語言模型的上下文視窗（Context Window）中進行生成

字面在說什麼

語言模型有「上下文長度上限」（例如 4096 個 token），如果找回來的文件太長，塞不進去就會被截斷，影響生成品質。

為什麼不對

這是「生成階段」要處理的問題，不是「檢索階段」的挑戰。檢索只負責找文件，文件要怎麼塞進 Context Window、要不要做摘要壓縮，是後面生成端的事。選 A 是把生成問題貼到檢索階段的標籤上。

誰會選錯

知道 Context Window 這個痛點但沒有區分 RAG 各階段職責的考生。記住：RAG 三個階段有清楚分工，Context Window 是生成層的問題，不是檢索層的問題。

B選擇使用 Faiss 或 ScaNN 等近似最近鄰搜尋函式庫

字面在說什麼

Faiss（Facebook AI Research 開源）和 ScaNN（Google 開源）都是做向量搜尋的工具，選哪個影響檢索速度和準確率。

為什麼不對

選哪個函式庫是「工程實作決策」，不是 RAG 系統的核心挑戰。Faiss 和 ScaNN 都很成熟，選錯頂多影響效能，不會造成根本性的回答品質問題。真正的挑戰是「找到的文件有沒有回答問題」，工具選擇是次要的。

誰會選錯

看過 RAG 實作教學、知道 Faiss 這個名詞，覺得「工具選對才能做好 RAG」的考生。工具是手段，意圖對齊才是目的。

C降低嵌入模型（Embedding Model）在高維空間中的計算成本與記憶體占用

字面在說什麼

嵌入模型把文字轉成幾百到幾千維的向量，高維向量又耗記憶體又耗運算，這是工程上的資源問題。

為什麼不對

這是「效率問題」，不是「正確性問題」。就算計算成本很高，只要捱得過去，系統還是能找到正確的文件。但如果意圖落差沒解決，就算系統快到毫秒級，找到的文件還是答非所問。核心挑戰看的是「找得準不準」，不是「找得快不快」。

誰會選錯

做過 ML 工程、對記憶體和運算成本敏感的考生，容易把工程痛點當成系統核心挑戰。記住：考試問的是「最關鍵的挑戰」，正確性問題永遠優先於效率問題。

06　變形

同個考點下次怎麼變形

變形 1　邊界

如果 RAG 知識庫只有 10 份文件，「意圖落差」問題還嚴重嗎？

直覺

文件少的時候，向量搜尋找錯的機會應該也少？

答案

文件少時意圖落差問題確實較輕，但不會消失。反而在知識庫小時，更容易出現「把不相關的那幾篇全找回來」的情況。真正讓意圖落差嚴重的，是知識庫大、文件類型雜、查詢用語歧義多這三個條件同時存在。

變形 2　反例

有沒有一種情況，語意相似但意圖不符反而是好事？

直覺

語意相似找回來的東西都是廢料？

答案

有，在「探索式查詢」（Exploratory Search）場景下，使用者本來就不確定自己要找什麼，這時語意相似的文件可能激發新想法，比精準命中更有用。但在 RAG 的問答場景裡，使用者有明確問題，意圖對齊才是核心目標。

變形 3　升級版

什麼是「Agentic RAG」？它怎麼更好地解決意圖落差？

直覺

普通 RAG 查一次、答一次，能不能讓 AI 自己決定要不要再查？

答案

Agentic RAG 讓語言模型扮演「代理人」角色：模型看了第一輪檢索結果，如果覺得不夠，自己決定要改寫查詢、再搜一次，或是拆解成子問題分批查。這樣的迭代檢索能更好地對準意圖，但代價是更多 API 呼叫和更長的回應時間。

變形 4　跨領域

電商推薦系統也有「語意相似但意圖不符」的問題嗎？

直覺

推薦系統找「和你買過的東西相似的」，應該也會踩到這個坑？

答案

完全一樣的問題，在推薦領域叫「相關性問題」（Relevance Problem）。你買了一台相機，系統推薦另一台相機（語意相似），但你其實是要配件，不是要再買一台機身。解法也類似：結合使用者行為訊號（購買、點擊、收藏）和語意向量，讓推薦結果更貼近意圖。

變形 5　評估指標

怎麼衡量 RAG 的檢索品質？有哪些指標？

直覺

看最終答案對不對就知道了？

答案

可以更精準地拆開評估。Recall@K 衡量「正確文件有沒有被找進 Top-K」，MRR（Mean Reciprocal Rank，平均倒數排名）衡量「正確文件排第幾名」，Context Precision 衡量「找到的 K 篇裡有幾篇真的有用」。RAGAS 是一個專為 RAG 評估設計的框架，同時評估檢索層和生成層的品質。

07　延伸

想再往下看，這 5 個

檢索增強生成（Retrieval-Augmented Generation）正解考點所在：結合向量搜尋與語言模型的架構，讓模型查資料再回答，但檢索品質決定最終答案正確性。
向量資料庫（Vector Database）RAG 知識庫的核心元件，儲存文件嵌入向量並支援近似最近鄰搜尋，是「語意相似但意圖不符」問題的發生地。
混合搜尋（Hybrid Search）同時用向量搜尋（語意）和 BM25（關鍵字精確匹配）的解法，彌補單純向量搜尋的意圖落差，是 RAG 最常見改善手段。
AI 幻覺（Hallucination）語言模型缺乏依據時自己發明答案的現象，RAG 的目的正是提供真實文件來減少幻覺，也是此題情境的上位問題。
嵌入表示（Embedding）將文字轉換為高維向量以計算語意相似度的技術，RAG 檢索的數學基礎，也是「語意相似 ≠ 意圖相符」問題的根源。