iPAS AI 應用規劃師 中級 科目二 大數據處理分析與應用

哪個情境最適合用異常偵測技術?

原題 10

下列哪一種情境最適合應用異常偵測(Anomaly Detection)技術?

白話

題目給出四個資料分析情境,要從中挑出最適合套用「異常偵測」(Anomaly Detection)這項技術的那一個。

問你:下列哪一種情境最適合應用異常偵測技術?

點選你的答案。

01 總結

一句話總結

異常偵測的核心任務是:找出與正常行為模式明顯不同的資料點。即時偵測可疑金融交易(選項 C)就是典型的異常偵測情境,其他三個是預測問題,不是異常偵測。

02 情境

先感受問題:每天幾百萬筆交易裡找出哪幾筆是詐欺

嘉誠銀行的風控部門每天處理 300 萬筆信用卡交易:

99.99% 的交易:平常消費,從台北刷卡買早餐、超市購物
0.01% 的交易:凌晨三點在海外突然大額刷卡、一分鐘內連刷五筆

風控系統不能每筆都送人工審核(300 萬筆根本審不完),要自動找出「這幾筆很奇怪」的交易。

這就是異常偵測要解決的問題:在大量正常資料中,找出「偏離正常行為」的少數事件

關鍵特徵:目標是「找偏差」,不是「預測未來的連續數值」。

03 對照

用規則清單偵測異常的五個問題

  1. 規則寫不完:詐欺手法千變萬化,今天封了「海外大額刷卡」,明天詐欺犯就改成「小額多筆」。規則要不斷人工更新。
  2. 誤報率高:「凌晨三點刷卡」可能是夜班護士買便當,規則太嚴會誤封正常交易,傷害用戶體驗。
  3. 漏報率高:詐欺犯學會了規則就能繞過,「符合所有規則的詐欺行為」就偵測不到。
  4. 無法處理組合模式:單一行為不算異常,但「同一帳戶同一天:換裝置 + 新地點 + 大額交易」三者組合才奇怪,規則系統難以抓這種多維組合。
  5. 不會自動進化:詐欺模式每個月都在變,規則要手動追蹤,機器學習模型可以定期重新訓練自動更新。
04 解法

異常偵測:學習「什麼是正常」,偏離正常就舉報

異常偵測(Anomaly Detection)的邏輯:

  1. 用大量歷史正常資料,讓模型學習「正常行為長什麼樣子」(例如:這個用戶平均每天刷 2-3 筆,金額在 100-3000 元)
  2. 對每筆新交易,計算它「偏離正常行為」的程度(異常分數)
  3. 異常分數超過門檻,就標記為可疑,送去人工審核或即時封鎖

選項 C 的描述:「即時分析金融交易資料流,偵測與平常交易行為明顯不同的可疑交易紀錄」,完整符合這個流程:

  • 「即時分析」→ 串流資料處理
  • 「與平常交易行為明顯不同」→ 偏離正常模式
  • 「可疑交易紀錄」→ 標記異常

這就是選項 C 講的:即時分析金融交易資料流,偵測與平常交易行為明顯不同的可疑交易紀錄

技術版:異常偵測的主要方法與適用場景

異常偵測的三大類方法:

  • 統計方法:Z-score(|Z| > 3)、IQR 法。簡單快速,適合單變量、正態分佈的資料。
  • 機器學習方法(非監督):Isolation Forest、Local Outlier Factor(LOF)、Autoencoder。不需要標籤,從正常資料學習正常模式。
  • 深度學習方法:LSTM Autoencoder(時序資料)、GAN-based 方法。適合複雜的時序或高維資料。
from sklearn.ensemble import IsolationForest
import numpy as np

# 模擬金融交易資料(金額、頻率)
transactions = np.array([
    [100, 2], [150, 3], [200, 2], [120, 2],  # 正常
    [5000, 15], [8000, 20]                    # 可疑
])

clf = IsolationForest(contamination=0.1, random_state=42)
clf.fit(transactions)
predictions = clf.predict(transactions)
# 1 = 正常,-1 = 異常
# [1, 1, 1, 1, -1, -1]

四個選項的 AI 任務分類:

  • 選項 A(庫存預測)→ 時間序列預測(Forecasting)
  • 選項 B(信用違約預測)→ 二元分類(Binary Classification)
  • 選項 C(可疑交易偵測)→ 異常偵測(Anomaly Detection)
  • 選項 D(登入量預測)→ 時間序列預測(Forecasting)

關鍵區別:預測問題是「預測一個值或類別」,異常偵測是「找出跟正常不一樣的點」。

05 陷阱

為什麼其他選項是錯的

A根據歷史銷售資料預測特定商品在旺季是否會出現供貨短缺

字面在說什麼

看過去的銷售趨勢,預測旺季前庫存夠不夠,提前備貨。

為什麼不對

這是「時間序列預測」或「分類預測」問題,目標是預測一個未來的值(庫存量)或事件(是否缺貨)。異常偵測的目標是找出「現在已發生的異常行為」,不是預測未來。

誰會選錯

覺得「供貨短缺」也是一種「異常事件」的人。確實,缺貨是不希望發生的事,但「預測缺貨」是用歷史資料預測未來,不是「即時偵測偏離正常模式的行為」,任務類型不同。

B透過信用風險模型預測顧客是否可能發生違約

字面在說什麼

用顧客的財務資料預測他以後是否還得了貸款,決定要不要放款。

為什麼不對

這是「監督式二元分類」問題。訓練資料有「違約/未違約」的標籤,模型學習把顧客分成兩類。異常偵測通常是非監督式的,沒有清楚的「正常/異常」標籤,是靠偏離正常模式來識別。

誰會選錯

覺得「預測違約」也是在抓「異常顧客」的人。違約預測是分類問題(用已知標籤訓練),不是偵測「偏離正常模式的即時行為」。

D監控線上服務平台的使用者登入次數,預測次日的登入量變化趨勢

字面在說什麼

分析每天的登入量趨勢,預測明天大概有多少人登入,可能用於伺服器資源規劃。

為什麼不對

這是「時間序列預測(Forecasting)」問題,目標是預測一個未來的數值(次日登入量)。異常偵測是即時識別「現在這個點偏離了正常」,不是預測未來。

誰會選錯

把「監控」跟「異常偵測」混淆的人。監控系統確實可以包含異常偵測(例如登入量突然異常暴增可能是 DDoS 攻擊),但題目說的是「預測次日登入量趨勢」,這是預測,不是偵測異常。

06 變形

同個考點下次怎麼變形

變形 1

異常偵測和分類(Classification)有什麼差別?

直覺

都是找「特別的」資料點,有什麼不同?

答案

分類需要標籤:訓練時要有很多「正常」和「異常」的例子。異常偵測通常只需要正常資料:學習「什麼是正常」,偏離的就是異常。異常偵測適合「異常很罕見、難以收集異常樣本」的場景(例如詐欺交易占 0.01%,訓練資料中異常樣本極少)。

變形 2

Isolation Forest 為什麼適合做異常偵測?

直覺

Isolation Forest 用隨機分割,跟「找異常」有什麼關係?

答案

Isolation Forest 的直覺:異常點很容易被「孤立」(少量分割就能把它從其他點分開),正常點需要更多次分割。算法建立多棵隨機決策樹,記錄每個點被孤立需要幾次分割,次數越少異常分數越高。不需要定義「正常的分佈」,對高維資料也有效。

變形 3

製造業生產線用異常偵測能做什麼?

直覺

金融詐欺是常見例子,製造業有沒有相似的應用場景?

答案

預測性維護(Predictive Maintenance):監控機器的振動、溫度、噪音等感測器資料流,偵測偏離正常運作模式的訊號(例如振動頻率突然改變),在機器故障前預警。這跟金融詐欺偵測是同一類技術,只是應用場景不同。

變形 4

異常偵測的「污染率(contamination)」參數是什麼?

直覺

Isolation Forest 有個 contamination 參數,這是在調什麼?

答案

contamination 是「你預期資料中有多少比例是異常點」的先驗估計。例如 contamination=0.01 表示預期 1% 的資料是異常,模型會把異常分數最高的 1% 標記為異常。這個參數影響判斷門檻,需要根據業務知識或歷史資料設定。

變形 5

網路安全中,異常偵測如何用於入侵偵測?

直覺

駭客入侵也可以用異常偵測嗎?

答案

是的,這是入侵偵測系統(IDS)的核心技術。模型學習正常的網路流量模式(封包大小、連線頻率、資料量),偵測到「某個 IP 突然發出大量掃描封包」「資料外傳量異常暴增」等偏離正常的行為,就觸發警報。這比規則式 IDS 更能應對未知攻擊手法。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 114 年第二梯次 iPAS AI 應用規劃師 中級 科目二 大數據處理分析與應用 第 10 題

查看官方原文 PDF