向量資料庫(Vector Database)是什麼?

向量資料庫是一種專門儲存和檢索向量嵌入的資料庫,能高效處理高維度資料的相似性搜尋,廣泛應用於推薦系統和語義搜尋。|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

向量資料庫(Vector Database)是什麼? 資料處理機器學習

你有沒有想過,搜尋不一定要靠字面完全一樣,也能找到意思相近的內容? 你可以把向量資料庫想成「專門用來找語意相近資料的資料庫」 它先把文字、圖片或音訊轉成向量,再用相似度找最接近的內容 所以它特別適合檢索、推薦和 RAG

你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。

容易混淆

向量資料庫 vs 關聯式資料庫 向量資料庫靠相似度找資料 關聯式資料庫靠欄位和條件查資料 最關鍵的區別:意思相近還是欄位精準

向量資料庫 vs 搜尋引擎 向量資料庫重視語意距離 搜尋引擎更常做關鍵字和排序 最關鍵的區別:語意搜尋和字面搜尋

向量資料庫 vs 嵌入模型 向量資料庫負責存和找 嵌入模型負責把內容轉成向量 最關鍵的區別:儲存檢索和表示生成

記住這句就好

先把內容變向量,再用距離找出最像的那一群。

實際案例

客服知識庫 把 FAQ 轉成向量後,使用者即使換成別的說法,系統也能找出相近答案

圖片推薦 商品圖片編碼成向量後,可以用外觀相似度找出相似商品

算法與應用

| 嵌入表示 | 把內容轉成向量 | 是前置步驟 | | 相似度搜尋 | 找距離最近的向量 | 常用餘弦或內積 | | 索引結構 | 加速大量向量查找 | 不然查詢太慢 | | RAG | 把檢索內容送進生成模型 | 很常見的組合 |

情境判斷

Q1(直覺題): 你要找意思相近的 FAQ,向量資料庫有幫助嗎?

有幫助,因為它不只看關鍵字,還看語意相似度。

Q2(判斷題): 你要做精準欄位篩選,例如價格大於 1000,還適合只靠它嗎?

不適合,這種條件查詢關聯式資料庫更直接。

常見問題

向量資料庫一定要搭配大模型嗎?

不一定,但通常會先靠嵌入模型產生向量。

它只能放文字嗎?

不是,圖片、音訊和影片特徵都可以。

為什麼查得快很重要?

因為向量資料常常很大,沒有索引就會慢到不能用。

範例考題

某有機農場累積了十年的病蟲害防治紀錄文件,包含不同作物的病害症狀描述、防治方法和效果評估。農場主人希望建立一個 AI 助手,能根據農民描述的作物症狀,快速提供相關的防治建議和歷史案例。下列哪一種技術最適合解決這個需求?

  • A. 直接使用 ChatGPT 的預訓練知識回答農業問題
  • B. 將所有文件內容加入 ChatGPT 的系統提示詞中
  • C. 採用 RAG 技術,將農場文件建立向量資料庫,結合大語言模型生成回答 ✓ 正確答案
  • D. 使用少樣本學習(Few-shot Learning),在提示詞中提供 3-5 個病害案例

解析:

RAG 技術能將十年的病蟲害防治紀錄建立為向量資料庫,根據農民描述檢索相關文件,再結合 LLM 生成精準的防治建議,最適合此類知識密集型查詢需求。