iPAS AI 應用規劃師中級　科目二　大數據處理分析與應用

哪個情境最適合用異常偵測技術？

原題 10

下列哪一種情境最適合應用異常偵測（Anomaly Detection）技術？

白話

題目給出四個資料分析情境，要從中挑出最適合套用「異常偵測」（Anomaly Detection）這項技術的那一個。

問你：下列哪一種情境最適合應用異常偵測技術？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

異常偵測的核心任務是：找出與正常行為模式明顯不同的資料點。即時偵測可疑金融交易（選項 C）就是典型的異常偵測情境，其他三個是預測問題，不是異常偵測。

02　情境

先感受問題：每天幾百萬筆交易裡找出哪幾筆是詐欺

嘉誠銀行的風控部門每天處理 300 萬筆信用卡交易：

99.99% 的交易：平常消費，從台北刷卡買早餐、超市購物
0.01% 的交易：凌晨三點在海外突然大額刷卡、一分鐘內連刷五筆

風控系統不能每筆都送人工審核（300 萬筆根本審不完），要自動找出「這幾筆很奇怪」的交易。

這就是異常偵測要解決的問題：在大量正常資料中，找出「偏離正常行為」的少數事件。

關鍵特徵：目標是「找偏差」，不是「預測未來的連續數值」。

03　對照

用規則清單偵測異常的五個問題

規則寫不完：詐欺手法千變萬化，今天封了「海外大額刷卡」，明天詐欺犯就改成「小額多筆」。規則要不斷人工更新。
誤報率高：「凌晨三點刷卡」可能是夜班護士買便當，規則太嚴會誤封正常交易，傷害用戶體驗。
漏報率高：詐欺犯學會了規則就能繞過，「符合所有規則的詐欺行為」就偵測不到。
無法處理組合模式：單一行為不算異常，但「同一帳戶同一天：換裝置 + 新地點 + 大額交易」三者組合才奇怪，規則系統難以抓這種多維組合。
不會自動進化：詐欺模式每個月都在變，規則要手動追蹤，機器學習模型可以定期重新訓練自動更新。

04　解法

異常偵測：學習「什麼是正常」，偏離正常就舉報

異常偵測（Anomaly Detection）的邏輯：

用大量歷史正常資料，讓模型學習「正常行為長什麼樣子」（例如：這個用戶平均每天刷 2-3 筆，金額在 100-3000 元）
對每筆新交易，計算它「偏離正常行為」的程度（異常分數）
異常分數超過門檻，就標記為可疑，送去人工審核或即時封鎖

選項 C 的描述：「即時分析金融交易資料流，偵測與平常交易行為明顯不同的可疑交易紀錄」，完整符合這個流程：

「即時分析」→ 串流資料處理
「與平常交易行為明顯不同」→ 偏離正常模式
「可疑交易紀錄」→ 標記異常

這就是選項 C 講的：即時分析金融交易資料流，偵測與平常交易行為明顯不同的可疑交易紀錄。

技術版：異常偵測的主要方法與適用場景

異常偵測的三大類方法：

統計方法：Z-score（|Z| > 3）、IQR 法。簡單快速，適合單變量、正態分佈的資料。
機器學習方法（非監督）：Isolation Forest、Local Outlier Factor（LOF）、Autoencoder。不需要標籤，從正常資料學習正常模式。
深度學習方法：LSTM Autoencoder（時序資料）、GAN-based 方法。適合複雜的時序或高維資料。

from sklearn.ensemble import IsolationForest
import numpy as np

# 模擬金融交易資料（金額、頻率）
transactions = np.array([
    [100, 2], [150, 3], [200, 2], [120, 2],  # 正常
    [5000, 15], [8000, 20]                    # 可疑
])

clf = IsolationForest(contamination=0.1, random_state=42)
clf.fit(transactions)
predictions = clf.predict(transactions)
# 1 = 正常，-1 = 異常
# [1, 1, 1, 1, -1, -1]

四個選項的 AI 任務分類：

選項 A（庫存預測）→ 時間序列預測（Forecasting）
選項 B（信用違約預測）→ 二元分類（Binary Classification）
選項 C（可疑交易偵測）→ 異常偵測（Anomaly Detection）
選項 D（登入量預測）→ 時間序列預測（Forecasting）

關鍵區別：預測問題是「預測一個值或類別」，異常偵測是「找出跟正常不一樣的點」。

05　陷阱

為什麼其他選項是錯的

A根據歷史銷售資料預測特定商品在旺季是否會出現供貨短缺

字面在說什麼

看過去的銷售趨勢，預測旺季前庫存夠不夠，提前備貨。

為什麼不對

這是「時間序列預測」或「分類預測」問題，目標是預測一個未來的值（庫存量）或事件（是否缺貨）。異常偵測的目標是找出「現在已發生的異常行為」，不是預測未來。

誰會選錯

覺得「供貨短缺」也是一種「異常事件」的人。確實，缺貨是不希望發生的事，但「預測缺貨」是用歷史資料預測未來，不是「即時偵測偏離正常模式的行為」，任務類型不同。

B透過信用風險模型預測顧客是否可能發生違約

字面在說什麼

用顧客的財務資料預測他以後是否還得了貸款，決定要不要放款。

為什麼不對

這是「監督式二元分類」問題。訓練資料有「違約/未違約」的標籤，模型學習把顧客分成兩類。異常偵測通常是非監督式的，沒有清楚的「正常/異常」標籤，是靠偏離正常模式來識別。

誰會選錯

覺得「預測違約」也是在抓「異常顧客」的人。違約預測是分類問題（用已知標籤訓練），不是偵測「偏離正常模式的即時行為」。

D監控線上服務平台的使用者登入次數，預測次日的登入量變化趨勢

字面在說什麼

分析每天的登入量趨勢，預測明天大概有多少人登入，可能用於伺服器資源規劃。

為什麼不對

這是「時間序列預測（Forecasting）」問題，目標是預測一個未來的數值（次日登入量）。異常偵測是即時識別「現在這個點偏離了正常」，不是預測未來。

誰會選錯

把「監控」跟「異常偵測」混淆的人。監控系統確實可以包含異常偵測（例如登入量突然異常暴增可能是 DDoS 攻擊），但題目說的是「預測次日登入量趨勢」，這是預測，不是偵測異常。

06　變形

同個考點下次怎麼變形

變形 1

異常偵測和分類（Classification）有什麼差別？

直覺

都是找「特別的」資料點，有什麼不同？

答案

分類需要標籤：訓練時要有很多「正常」和「異常」的例子。異常偵測通常只需要正常資料：學習「什麼是正常」，偏離的就是異常。異常偵測適合「異常很罕見、難以收集異常樣本」的場景（例如詐欺交易占 0.01%，訓練資料中異常樣本極少）。

變形 2

Isolation Forest 為什麼適合做異常偵測？

直覺

Isolation Forest 用隨機分割，跟「找異常」有什麼關係？

答案

Isolation Forest 的直覺：異常點很容易被「孤立」（少量分割就能把它從其他點分開），正常點需要更多次分割。算法建立多棵隨機決策樹，記錄每個點被孤立需要幾次分割，次數越少異常分數越高。不需要定義「正常的分佈」，對高維資料也有效。

變形 3

製造業生產線用異常偵測能做什麼？

直覺

金融詐欺是常見例子，製造業有沒有相似的應用場景？

答案

預測性維護（Predictive Maintenance）：監控機器的振動、溫度、噪音等感測器資料流，偵測偏離正常運作模式的訊號（例如振動頻率突然改變），在機器故障前預警。這跟金融詐欺偵測是同一類技術，只是應用場景不同。

變形 4

異常偵測的「污染率（contamination）」參數是什麼？

直覺

Isolation Forest 有個 contamination 參數，這是在調什麼？

答案

contamination 是「你預期資料中有多少比例是異常點」的先驗估計。例如 contamination=0.01 表示預期 1% 的資料是異常，模型會把異常分數最高的 1% 標記為異常。這個參數影響判斷門檻，需要根據業務知識或歷史資料設定。

變形 5

網路安全中，異常偵測如何用於入侵偵測？

直覺

駭客入侵也可以用異常偵測嗎？

答案

是的，這是入侵偵測系統（IDS）的核心技術。模型學習正常的網路流量模式（封包大小、連線頻率、資料量），偵測到「某個 IP 突然發出大量掃描封包」「資料外傳量異常暴增」等偏離正常的行為，就觸發警報。這比規則式 IDS 更能應對未知攻擊手法。

07　延伸

想再往下看，這 5 個

異常偵測（Anomaly Detection）核心考點，在大量正常資料中自動識別偏離正常模式的少數事件，廣泛用於詐欺偵測、工業監控。
詐欺偵測（Fraud Detection）金融異常偵測的典型應用，即時分析交易資料流識別可疑行為，是本題選項 C 的直接對應。
非監督式學習（Unsupervised Learning）異常偵測常用非監督式方法，只靠正常資料學習正常模式，不需要異常標籤。
時間序列分析（Time Series Analysis）選項 A 和 D 的預測問題，與異常偵測的區別在於目標是「預測未來值」而非「識別現在的偏差」。
即時推論（Real-time Inference）金融交易異常偵測需要毫秒級即時推論，確保在交易完成前完成風險評估。