iPAS AI 應用規劃師 中級 科目二 大數據處理分析與應用

Z 分數等於 2 代表什麼?

原題 01

若某數據點的 Z 分數(Z-Score)= 2,請問代表下列哪一種意涵?

白話

有一個數據點,它的 Z 分數(Z-Score)算出來是 2。

問你:Z 分數等於 2,這個數字在說什麼意思?

點選你的答案。

01 總結

一句話總結

Z 分數(Z-Score)= 2 代表:該數據點比平均值高 2 個標準差。Z 分數是「距離平均值幾個標準差」,正數往上、負數往下。

02 情境

先感受問題:員工業績「高多少」要怎麼量

嘉誠科技的人資部門在分析業務員的月銷售額,資料如下:

全公司月銷售平均:100 萬元
標準差:20 萬元
阿明這個月賣了:140 萬元

人資想知道:阿明的成績「有多突出」?

直接說「他賣了 140 萬」沒意義,因為你不知道全公司水準。但如果說「他比平均高出 2 個標準差」,就能立刻知道他在整個分佈裡站的位置。

這個「距離平均值幾個標準差」的量,就叫做 Z 分數。

03 對照

不用 Z 分數時,比較會遇到什麼困難

  1. 不同量綱無法比較:業績用「萬元」、客戶評分用「1-5 分」,要怎麼說誰表現更突出?沒有 Z 分數就沒辦法放在同一個尺規上。
  2. 平均值不一樣看不出高低:A 部門平均 80 分,B 部門平均 60 分,某人在 A 得 90、在 B 得 75,哪個更厲害?直接看數字會誤判。
  3. 離群值判斷沒有標準:說「這筆資料是異常值」要有依據,純憑感覺不夠嚴謹。
  4. 機器學習模型對數值敏感:特徵沒有標準化,距離型演算法(KNN、SVM)會讓大數字主宰結果,小數字的貢獻被淹沒。
  5. 無法快速解讀相對位置:原始數值 140 是高還是低,要跟整個資料集比才知道,每次都要額外計算很麻煩。
04 解法

Z 分數把所有數值換算成「距離平均值幾格」

Z 分數的計算公式是:Z = (X - μ) / σ

  • X:這個數據點的原始值
  • μ(mu):全部資料的平均值
  • σ(sigma):全部資料的標準差

回到嘉誠科技的例子:

阿明的 Z 分數 = (140 - 100) / 20 = 40 / 20 = 2

Z = 2 的意思:阿明的業績比全公司平均高出 2 個標準差。在常態分佈裡,這表示他贏過約 97.7% 的同事。

Z 分數的規則:

  • Z > 0:高於平均
  • Z < 0:低於平均
  • Z = 0:剛好等於平均
  • Z = 2:比平均高 2 個標準差
  • Z = -2:比平均低 2 個標準差

這就是選項 D 講的:該數據點比平均值高 2 個標準差

技術版:Z 分數的數學背景與實務應用

Z 分數(Z-Score)是標準化(Standardization)的核心工具,公式為:

Z = (X - μ) / σ

其中 μ 是母體平均數(或樣本平均數 x̄),σ 是母體標準差(或樣本標準差 s)。

Z 分數轉換後的資料稱為「標準化資料」,具有以下特性:平均值為 0,標準差為 1。這在統計學上稱為標準常態分佈(Standard Normal Distribution)。

在機器學習的資料前處理階段,Z-score 標準化(也叫 Standardization)是最常用的縮放方式之一。使用 sklearn 只需幾行程式碼:

from sklearn.preprocessing import StandardScaler
import numpy as np

sales = np.array([80, 90, 100, 110, 140]).reshape(-1, 1)
scaler = StandardScaler()
z_scores = scaler.fit_transform(sales)
# 結果:[[-1.46], [-0.73], [0.], [0.73], [2.19]]

Z 分數在實務上的三個主要用途:

  1. 異常值偵測:一般規則是 |Z| > 3 才視為異常值(三個標準差以外),|Z| = 2 不必然是異常值,只是偏高。
  2. 特徵標準化:讓不同量綱的特徵放在同一尺度,改善距離型模型的表現。
  3. 統計比較:在不同分佈的資料集之間做公平比較(例如:不同科目的成績)。

與 Min-Max 正規化的區別:Z-score 不把資料壓縮到 [0,1] 區間,資料有離群值時比 Min-Max 更穩健。

05 陷阱

為什麼其他選項是錯的

A代表該數據點之原始數值為 2

字面在說什麼

Z 分數等於 2,所以這個數據點本來的數值就是 2。

為什麼不對

Z 分數是經過計算得來的「相對位置指標」,不是原始數值本身。原始值是 X,Z 是把 X 減掉平均再除以標準差的結果。Z = 2 只是說「距離平均有兩個標準差」,原始值可能是 140、可能是 0.006,完全取決於那組資料的平均跟標準差是多少。

誰會選錯

沒有仔細想 Z 分數定義,把「Z = 2」直接當「值 = 2」的人。記住:Z 是轉換後的標準化分數,不是原始資料。

B該數據點比平均值低 2 個標準差

字面在說什麼

Z = 2,所以比平均低 2 個標準差。

為什麼不對

Z 分數的正負號代表方向:正值表示高於平均,負值表示低於平均。Z = 2 是正數,所以一定是高於平均。低於平均應該是 Z = -2。

誰會選錯

把正負號搞混的人。有時候「2 個標準差」的方向感不直覺,需要記住:Z 正 = 高於均值,Z 負 = 低於均值。

C代表數據為異常值

字面在說什麼

Z 分數 = 2 代表這個數據點是異常值(Outlier)。

為什麼不對

Z = 2 確實是偏高,但「異常值」通常的門檻是 |Z| > 3(三個標準差以外),有些嚴格標準用 |Z| > 2.5。Z = 2 還在多數人接受的「正常範圍內偏高端」,不能直接斷定是異常值。題目沒有說這個門檻是什麼,Z = 2 最準確的說法仍是「比平均高 2 個標準差」,不是「異常」。

誰會選錯

記得「Z 分數可以用來抓異常值」,就以為 Z = 2 就是異常值的人。Z 分數是工具,「幾才算異常」要看設定的門檻,不是固定在 2。

06 變形

同個考點下次怎麼變形

變形 1

Z 分數等於 -1.5 代表什麼?

直覺

Z 是負數,所以是低於平均,而且是 1.5 個標準差。

答案

該數據點比平均值低 1.5 個標準差。在常態分佈裡,大約排在第 6.7 個百分位,贏過約 6.7% 的樣本。

變形 2

Z-score 標準化和 Min-Max 正規化有什麼差別?

直覺

兩個都是「縮放數值」,看起來很像,那哪個比較好?

答案

Z-score 把資料轉成「均值 0、標準差 1」,沒有固定上下限,對離群值比較不敏感。Min-Max 把資料壓縮到 [0,1],離群值會嚴重壓縮其他資料的範圍。資料有明顯離群值時,Z-score 更穩健;需要固定範圍(如圖像像素)時用 Min-Max。

變形 3

如何用 Z 分數判斷離群值?

直覺

Z 分數可以抓離群值,但門檻是多少?

答案

常見做法是設 |Z| > 3 為離群值(三個標準差外,常態分佈下機率 < 0.27%)。也有人用 |Z| > 2.5 或 |Z| > 2,取決於應用的容錯程度。這個門檻是人設的,不是 Z 分數定義的一部分。

變形 4

對非常態分佈的資料,Z 分數還有意義嗎?

直覺

Z 分數跟常態分佈有關,如果資料不符合常態分佈怎麼辦?

答案

Z 分數本身的計算(X - μ)/ σ 不需要資料是常態分佈,任何資料都能算出 Z 值。但「Z = 2 代表第 97.7 百分位」這個推論只在常態分佈下成立。非常態分佈的資料,Z 值仍能描述相對位置,但百分位對應就不準了。

變形 5

機器學習為什麼需要做 Z-score 標準化?

直覺

特徵值差很多,不標準化會怎樣?

答案

KNN、SVM、邏輯迴歸等距離型或梯度型模型會受特徵尺度影響。「年齡(10-100)」跟「薪水(10000-100000)」不標準化,薪水的差異會完全主導距離計算,年齡的資訊幾乎沒用。Z-score 讓每個特徵站在同一個尺規上,避免大數字壟斷模型的判斷。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 114 年第二梯次 iPAS AI 應用規劃師 中級 科目二 大數據處理分析與應用 第 1 題

查看官方原文 PDF