iPAS AI 應用規劃師 初級 科目二 生成式 AI 應用與規劃

洗錢偵測最適合哪種生成式 AI 技術?

原題 26

某支付平台為了強化洗錢行為檢測,計劃導入生成式 AI 技術來輔助分析可疑交易模式。該平台擁有大量歷史交易記錄和已知洗錢案例資料,希望 AI 能自動生成可疑交易的特徵描述報告。下列哪一種生成式 AI 技術最適合此需求?

白話

某支付平台手上有大量歷史交易紀錄和已知洗錢案例資料,想導入生成式 AI 技術,讓 AI 能自動生成可疑交易的特徵描述報告。

問你:哪一種生成式 AI 技術最適合這個需求?

點選你的答案。

01 總結

一句話總結

有「既有案例資料庫」加上「需要生成有根據的分析報告」,這是 RAG(檢索增強生成) 的典型應用場景,讓 AI 先查案例再生成報告。

02 情境

先感受問題:分析師要寫可疑交易報告,但案例資料庫太大看不完

假設你在「永興支付」的風控團隊工作。公司累積了五年的交易記錄和 3,000 筆已確認的洗錢案例,每個案例都有詳細的模式描述。

每當偵測系統標記一筆可疑交易,風控分析師要寫一份報告,說明「這筆交易為什麼可疑、跟哪些已知洗錢手法相似」。問題是:資料庫太大,分析師沒辦法每次都手動翻 3,000 筆案例,報告品質參差不齊。

你需要的 AI 能做兩件事:先從案例資料庫找出最相關的歷史案例,再根據這些案例生成有根據的特徵描述報告。這不是讓 AI 憑空猜測,而是讓 AI 有憑有據地引用既有知識。

03 對照

沒有 RAG,只用 ChatGPT 直接分析會怎樣?

如果「永興支付」直接用 ChatGPT 基礎模型做分析,會碰到這些問題:

  1. 沒有公司專屬資料:ChatGPT 的訓練資料不包含「永興支付」的歷史洗錢案例,回答只能靠一般知識,沒有針對性
  2. 知識截止日期:ChatGPT 有知識截止日期,最新的洗錢手法可能還不知道,但公司資料庫都有
  3. 無法引用具體案例:報告寫「這筆交易與 2023 年 8 月案例 #2847 模式相似」,ChatGPT 沒有這份資料根本做不到
  4. 幻覺問題:在缺乏真實資料的情況下,ChatGPT 可能生成看起來合理但實際上錯誤的分析內容
  5. 合規問題:洗錢防制報告需要有憑有據,沒有引用真實案例的分析報告難以通過法遵審查
04 解法

RAG 怎麼解

RAG(Retrieval-Augmented Generation,檢索增強生成)的工作方式:

第一步:建立向量資料庫。把「永興支付」的 3,000 筆洗錢案例和歷史交易記錄,轉換成向量(Embedding),存進向量資料庫。每個案例都能用語意搜尋找到。

第二步:檢索(Retrieval)。當有一筆可疑交易進來,系統先從向量資料庫找出最相似的歷史案例,比如「找出跟這筆交易模式最像的前 5 個洗錢案例」。

第三步:增強生成(Augmented Generation)。把找到的案例連同可疑交易資料,一起送進語言模型,讓它生成「有具體案例支撐的特徵描述報告」。

這樣生成的報告不是 AI 憑空想像,而是有真實案例根據,滿足合規要求,也更有說服力。

這就是選項 C 講的:運用 RAG 檢索增強生成技術結合歷史案例資料庫

技術版:RAG 的架構與適用場景

RAG(Retrieval-Augmented Generation)是 2023 年後最重要的 LLM 應用架構之一,解決了「語言模型知識有限且靜態」的根本問題。

RAG 的三個核心元件:向量資料庫(儲存並檢索文件)、Embedding 模型(把文字轉成可計算相似度的向量)、生成模型(根據檢索結果生成回答)。這三個元件缺一不可。

RAG 的適用場景特徵:擁有大量私有/專屬文件需要被引用;需要生成有根據的回答(不能幻覺);資料會持續更新(不適合重新訓練模型);回答需要引用具體來源。本題的洗錢案例資料庫完全符合這四點。

RAG vs Fine-tuning 的選擇:RAG 適合「資料會更新、需要引用原文、私有資料量大」的場景;Fine-tuning 適合「需要模型學習特定語氣/風格、輸入輸出格式固定、資料量足夠」的場景。本題明顯是 RAG 的適用場景。

為什麼出題者要考這題:RAG 是企業 AI 應用中最常被選用的技術架構,能辨識何時適合用 RAG、它解決什麼問題,是規劃師的核心知識。

05 陷阱

為什麼其他選項是錯的

A使用 Midjourney 生成交易流程圖像

字面在說什麼

用 AI 圖像生成工具,把洗錢交易流程視覺化成圖片。

為什麼不對

Midjourney 是藝術圖像生成工具,不能分析交易數據,也不能生成文字分析報告。題目要的是「可疑交易的特徵描述報告」,這是文字輸出,不是圖像。

誰會選錯

對生成式 AI 工具沒有概念,以為所有 AI 工具都能做所有事的人。

B採用 Few-shot Learning 訓練圖像識別模型

字面在說什麼

用少量案例訓練一個圖像識別模型來偵測洗錢。

為什麼不對

兩個問題:第一,洗錢偵測的主要資料是交易記錄(文字/數字),不是圖像;第二,題目的需求是「生成特徵描述報告」,不是訓練一個分類器。Few-shot Learning 是訓練技術,不能直接生成報告。

誰會選錯

知道 Few-shot Learning 是「小樣本技術」,但混淆了「訓練分類器」和「生成分析報告」兩種不同目的的人。

D直接使用 ChatGPT 的基礎模型進行分析

字面在說什麼

把可疑交易資料直接貼給 ChatGPT,請它分析。

為什麼不對

ChatGPT 基礎模型沒有「永興支付」的歷史洗錢案例資料。它能生成通用的反洗錢分析框架,但無法引用公司的具體案例,也可能產生幻覺,不符合需要根據歷史資料庫生成有憑有據報告的需求。

誰會選錯

以為 ChatGPT 什麼都知道、什麼都能做,忘了它沒有企業私有資料的人。這個選項很有迷惑性,因為 ChatGPT 確實能寫分析報告,只是沒有公司專屬資料。

06 變形

同個考點下次怎麼變形

變形 1

RAG 和直接 Fine-tuning 大型語言模型,在什麼條件下應選 RAG?

直覺

兩個都能讓 AI 「知道」公司的資料,差在哪?

答案

選 RAG 的條件:資料頻繁更新(洗錢手法一直演變)、需要引用原始文件(報告要有具體案例來源)、資料量大但不需要全部學(3,000 筆案例不是每次都用到)。Fine-tuning 適合固定的格式學習或特定語氣訓練。

變形 2

RAG 系統的「幻覺(Hallucination)」風險為什麼比純語言模型低?

直覺

RAG 不也是語言模型在生成嗎,幻覺不是一樣嗎?

答案

RAG 讓模型生成時有「參考資料」可以引用,而不是憑記憶猜測。就像開卷考試比閉卷考試更準確:模型看到真實的案例文件後,引用具體事實的比例更高,不需要「靠感覺填答案」。但注意:RAG 不能完全消除幻覺,只能降低風險。

變形 3

一家公司的法律文件量很大,想讓 AI 能回答「合約中有沒有這個條款」,最適合什麼技術?

直覺

把文件給 AI 讀,它應該就能回答?

答案

RAG。先把所有合約向量化建索引,查詢時先檢索相關合約段落,再讓語言模型判斷有沒有特定條款。直接把整批合約塞進 ChatGPT 會超過 Context Window 限制,RAG 的檢索步驟解決了這個問題。

變形 4

RAG 中的「Embedding(嵌入向量)」是什麼?為什麼需要它?

直覺

Embedding 聽起來很技術,初級考試需要知道嗎?

答案

Embedding 是把文字轉成一串數字(向量),讓電腦能計算兩段文字在語意上有多相似。「洗錢分層手法」和「將非法資金分散轉帳以掩飾來源」在字面上不同,但 Embedding 能讓它們的向量彼此接近,進而被檢索到。RAG 需要它才能做「語意搜尋」而非只是關鍵字比對。

變形 5

若洗錢案例資料庫每週都有新案例加入,RAG 和 Fine-tuning 哪個比較容易維護更新?

直覺

兩個更新應該差不多吧?

答案

RAG 更容易維護。新案例加入只需要把新文件向量化後存進資料庫,不用重新訓練模型,幾分鐘就完成。Fine-tuning 更新知識需要重新訓練模型,耗費大量計算資源和時間,每次更新都是大工程。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 115 年第一次 iPAS AI 應用規劃師 初級 科目二 生成式 AI 應用與規劃 第 26 題

查看官方原文 PDF