iPAS AI 應用規劃師 中級 科目二 大數據處理分析與應用

交易金額 3200 元的 Z 分數是多少?

原題 16

某金融科技公司以 Z 分數(Z-Score)監控交易金額異常狀況。若交易金額平均為新台幣 2,000 元,標準差為 400 元,某筆交易金額為 3,200 元,且公司以|Z| ≥ 3 判定為異常值(Outlier),下列判斷何者最為正確?

白話

一家金融科技公司用 Z 分數來監控每筆交易是否異常。已知交易金額的平均值是 2,000 元,標準差是 400 元。有一筆交易金額是 3,200 元。公司規定 Z 分數的絕對值超過 3 才算異常值。

問你:這筆 3,200 元的交易,Z 分數是多少?這筆交易算不算異常值?

點選你的答案。

01 總結

一句話總結

代入公式:Z = (3200 - 2000) / 400 = 1200 / 400 = 3。Z 分數 = 3,公司門檻是 |Z| ≥ 3,剛好到門檻,應標記為異常值

02 情境

先感受問題:這筆交易「比平均高多少個標準差」

富通金融科技的風控系統自動掃描每一筆交易。

大多數使用者的消費金額平均是 2,000 元,波動(標準差)是 400 元。

今天有一筆交易:3,200 元。風控員小莉要判斷:這筆交易「高到不尋常」嗎?

直接看「比平均高 1,200 元」沒有基準。但換算成 Z 分數:這 1,200 元的差距,是標準差的幾倍?這個「倍數」就是 Z 分數,提供了統一的相對基準。

公司規定 |Z| ≥ 3 才標記異常,這表示「偏離平均超過 3 個標準差」才觸發警報,在常態分佈下大約只有 0.27% 的正常交易會觸發,誤報率極低。

03 對照

不用 Z 分數監控異常,有哪些問題

  1. 固定金額門檻不夠彈性:設「超過 5,000 元才異常」,對低單價商品交易(平均 500 元)是太寬鬆,對高單價商品(平均 8,000 元)卻是太嚴格。固定門檻無法適應不同商品或不同用戶群的消費模式。
  2. 百分比門檻忽略分佈形狀:設「超過平均的 150%」,但沒考慮資料的分散程度(標準差),對高度集中的分佈(標準差小)過於寬鬆,對分散的分佈(標準差大)過於嚴格。
  3. 多特徵異常無法比較:要同時監控「交易金額」「交易次數」「時間間隔」,這些特徵單位不同,無法直接比較哪個更異常。Z 分數統一成相對標準差的尺度,可以跨特徵比較。
  4. 季節性波動造成誤報:年節期間消費增加是正常現象,固定門檻會大量誤報。Z 分數如果根據近期資料動態更新均值和標準差,就能自動適應季節效應。
  5. 不知道門檻對應的統計意義:固定門檻「3,000 元」的觸發率在不同時間、不同商品下完全不同,難以評估系統的誤報率和漏報率。Z 分數的門檻有對應的常態分佈機率,可以精確控制誤報率。
04 解法

代入 Z 分數公式:一步算出 3,200 元是幾個標準差

富通金融科技的風控員小莉套用公式:

Z = (X - μ) / σ = (3200 - 2000) / 400 = 1200 / 400 = 3

Z 分數 = 3,意思是:這筆 3,200 元的交易,比平均值高出整整 3 個標準差。

判斷:公司門檻是 |Z| ≥ 3。Z = 3,剛好達到門檻(3 ≥ 3 成立),應標記為異常值。

注意:題目選項 A 說「Z = 3,應標記為異常值」,這是完全正確的陳述。Z = 3 不是「快到但還沒到」,而是「剛好等於門檻」,條件 |Z| ≥ 3 中的「≥」包含等號,所以應該標記。

這就是選項 A 講的:該筆交易的 Z 分數為 3,應標記為異常值

技術版:Z 分數異常偵測的完整計算流程

中級考試大概率會考程式碼跟公式,所以這部分你還是要學。但如果現在學起來很痛苦,可以先跳過,等讀完其他題目回頭再來。

Step 1 純故事版(不出現公式)

想像全公司員工的身高,平均 170 公分,大多數人在 160-180 之間。如果有人說身高 210 公分,我們會驚訝;如果有人說 172 公分,完全正常。

Z 分數就是把這個「驚訝程度」量化。「比平均差多少」除以「通常的波動範圍(標準差)」,得到一個純數字,告訴你這個值有多稀有。

風控系統的做法:算出每筆交易的 Z 分數,超過設定門檻(例如 3 個標準差)就觸發警報。3 個標準差外的事件在常態分佈下只有 0.27% 的機率,非常稀有,值得調查。

Step 2 中文 ↔ 公式對照
白話說法公式 / 數值
Z 分數公式Z = (X - μ) / σ
本題代入Z = (3200 - 2000) / 400 = 3
異常判斷條件|Z| ≥ 3 → 異常;|Z| < 3 → 正常
Z = 3 的統計意義常態分佈下,|Z| ≥ 3 的機率 ≈ 0.27%
Step 3 符號角色表
X
這筆資料的原始值,本題 = 3,200 元
μ(mu)
母體或樣本的平均值,本題 = 2,000 元
σ(sigma)
標準差,衡量資料的分散程度,本題 = 400 元
Z
Z 分數(標準分數),表示 X 偏離平均值幾個標準差,本題 = 3
|Z|
Z 分數的絕對值,不管正負都看距離,本題 = 3
Step 4 完整計算過程
已知:
  X(這筆交易金額)= 3,200 元
  μ(平均交易金額)= 2,000 元
  σ(標準差)       = 400 元
  異常門檻:|Z| ≥ 3

計算 Z 分數:
  Z = (X - μ) / σ
  Z = (3,200 - 2,000) / 400
  Z = 1,200 / 400
  Z = 3

判斷異常:
  |Z| = |3| = 3
  3 ≥ 3 → 條件成立 → 標記為異常值 ✓

反向驗算(選項 B 的 Z=2.5 是哪個金額?):
  X = μ + Z × σ = 2000 + 2.5 × 400 = 2000 + 1000 = 3,000 元
  (不是 3,200 元,所以 B 錯)
Step 5 自我複述
  1. 平均 5,000 元,標準差 800 元,某筆 7,400 元,Z 分數是多少?
  2. Z = -2 代表這筆交易在平均值的哪個方向?
  3. 為什麼 |Z| ≥ 3 是常見的異常門檻,不是 2 或 4?
  4. 如果市場劇烈波動導致標準差從 400 變成 600,同樣是 3,200 元的交易,Z 分數會怎麼改變?是否仍會觸發異常?
  5. Z 分數監控的前提假設是什麼?如果資料不是常態分佈會怎樣?
05 陷阱

為什麼其他選項是錯的

B該筆交易的 Z 分數為 2.5,屬於合理變異範圍

字面在說什麼

Z = 2.5,沒有達到 3 的門檻,所以算正常。

為什麼不對

算術計算錯誤。Z = (3200 - 2000) / 400 = 1200 / 400 = 3,不是 2.5。Z = 2.5 對應的金額是 2000 + 2.5 × 400 = 3,000 元,而不是 3,200 元。這個選項是用來測試考生是否真的代入公式計算,而不是憑感覺估計。

誰會選錯

沒有把數字帶入公式,而是看到「3,200 比 2,000 多了 1,200,差不多 2-3 倍標準差」就猜 2.5 的人。計算題一定要算,不能憑感覺。

C該筆交易的 Z 分數為 2,顯示模型標準差估計過高

字面在說什麼

Z = 2,而且後面還加了一句對標準差估計的評論。

為什麼不對

Z = 2 對應的金額是 2000 + 2 × 400 = 2,800 元,不是 3,200 元。計算本身就錯了,後面「標準差估計過高」的說法更是無中生有的評論,題目沒有給任何資訊可以判斷標準差估計是否過高。

誰會選錯

計算錯誤且被額外的「技術說法」誤導的人。這種選項刻意加上聽起來合理的評論(「標準差估計過高」),讓考生覺得「分析很深入」而選錯。

D該筆交易的 Z 分數為 1.5,無須納入異常檢測

字面在說什麼

Z = 1.5,遠低於門檻 3,不需要處理。

為什麼不對

Z = 1.5 對應的金額是 2000 + 1.5 × 400 = 2,600 元,不是 3,200 元。計算嚴重錯誤。這個選項測試的是:考生是否真的代入正確數字,還是隨便寫一個「感覺合理」的小數值。

誰會選錯

沒有計算習慣,或把除數和被除數搞錯(例如算成 400/1200 = 0.33 而非 1200/400 = 3)的人。

06 變形

同個考點下次怎麼變形

變形 1

平均 5,000 元,標準差 800 元,某筆交易 7,400 元,Z 分數是多少?是否異常(|Z| ≥ 3)?

直覺

套公式算就好。

答案

Z = (7400 - 5000) / 800 = 2400 / 800 = 3。|Z| = 3 ≥ 3,應標記為異常值。和本題數字不同但結論相同:剛好在門檻上。

變形 2

如果把異常門檻從 |Z| ≥ 3 改為 |Z| ≥ 2.5,這筆 3,200 元的交易會有什麼不同?

直覺

門檻降低,是否更容易觸發?

答案

Z = 3,無論門檻是 2.5 還是 3,這筆交易都會觸發(3 ≥ 2.5 且 3 ≥ 3)。門檻降低意味著更多「偏高但未必真的異常」的交易也會被標記,誤報率(False Positive)上升,但漏報率(False Negative)降低。風控策略就是在兩者之間取捨。

變形 3

Z 分數監控的前提假設是什麼?如果資料嚴重右偏(很多大額交易),Z 分數還適用嗎?

直覺

Z 分數好像假設資料是常態分佈?

答案

Z 分數的計算本身不需要常態分佈,但用「|Z| ≥ 3 對應 0.27% 機率」這個統計意義時,才需要常態假設。如果資料嚴重右偏(高峰值、長尾),Z = 3 對應的實際機率可能比 0.27% 高很多,門檻的統計意義就不準確。這時應考慮先對資料做對數轉換(Log Transform),或改用 IQR(四分位距)方法偵測異常值。

變形 4

Z 分數異常偵測和 IQR 方法有什麼差別?

直覺

有其他偵測異常值的方法嗎?

答案

Z 分數使用均值和標準差,對離群值本身很敏感(一個極端值就會大幅拉高均值和標準差,影響所有資料的 Z 值)。IQR(四分位距)法使用中位數和第 25、75 百分位,對離群值不敏感,更穩健。規則是:小於 Q1 - 1.5×IQR 或大於 Q3 + 1.5×IQR 視為異常。資料有極端值時,IQR 比 Z 分數更可靠。

變形 5

動態門檻(滾動均值和標準差)比靜態門檻有什麼優勢?

直覺

均值和標準差應該隨時間更新嗎?

答案

靜態門檻用歷史全體資料算一次均值和標準差,不會隨時間更新,無法適應消費趨勢(通膨、促銷)或季節性波動。動態門檻用最近 N 天的滾動視窗更新均值和標準差,年節期間正常消費增加時,均值上升,Z 分數不會誤報;而真正異常的大額交易,相對於近期均值的 Z 分數仍會高。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 114 年第二梯次 iPAS AI 應用規劃師 中級 科目二 大數據處理分析與應用 第 16 題

查看官方原文 PDF