iPAS AI 應用規劃師中級　科目二　大數據處理分析與應用

Z 分數等於 2 代表什麼？

原題 01

若某數據點的 Z 分數（Z-Score）= 2，請問代表下列哪一種意涵？

白話

有一個數據點，它的 Z 分數（Z-Score）算出來是 2。

問你：Z 分數等於 2，這個數字在說什麼意思？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

Z 分數（Z-Score）= 2 代表：該數據點比平均值高 2 個標準差。Z 分數是「距離平均值幾個標準差」，正數往上、負數往下。

02　情境

先感受問題：員工業績「高多少」要怎麼量

嘉誠科技的人資部門在分析業務員的月銷售額，資料如下：

全公司月銷售平均：100 萬元
標準差：20 萬元
阿明這個月賣了：140 萬元

人資想知道：阿明的成績「有多突出」？

直接說「他賣了 140 萬」沒意義，因為你不知道全公司水準。但如果說「他比平均高出 2 個標準差」，就能立刻知道他在整個分佈裡站的位置。

這個「距離平均值幾個標準差」的量，就叫做 Z 分數。

03　對照

不用 Z 分數時，比較會遇到什麼困難

不同量綱無法比較：業績用「萬元」、客戶評分用「1-5 分」，要怎麼說誰表現更突出？沒有 Z 分數就沒辦法放在同一個尺規上。
平均值不一樣看不出高低：A 部門平均 80 分，B 部門平均 60 分，某人在 A 得 90、在 B 得 75，哪個更厲害？直接看數字會誤判。
離群值判斷沒有標準：說「這筆資料是異常值」要有依據，純憑感覺不夠嚴謹。
機器學習模型對數值敏感：特徵沒有標準化，距離型演算法（KNN、SVM）會讓大數字主宰結果，小數字的貢獻被淹沒。
無法快速解讀相對位置：原始數值 140 是高還是低，要跟整個資料集比才知道，每次都要額外計算很麻煩。

04　解法

Z 分數把所有數值換算成「距離平均值幾格」

Z 分數的計算公式是：Z = (X - μ) / σ

X：這個數據點的原始值
μ（mu）：全部資料的平均值
σ（sigma）：全部資料的標準差

回到嘉誠科技的例子：

阿明的 Z 分數 = (140 - 100) / 20 = 40 / 20 = 2

Z = 2 的意思：阿明的業績比全公司平均高出 2 個標準差。在常態分佈裡，這表示他贏過約 97.7% 的同事。

Z 分數的規則：

Z > 0：高於平均
Z < 0：低於平均
Z = 0：剛好等於平均
Z = 2：比平均高 2 個標準差
Z = -2：比平均低 2 個標準差

這就是選項 D 講的：該數據點比平均值高 2 個標準差。

技術版：Z 分數的數學背景與實務應用

Z 分數（Z-Score）是標準化（Standardization）的核心工具，公式為：

Z = (X - μ) / σ

其中 μ 是母體平均數（或樣本平均數 x̄），σ 是母體標準差（或樣本標準差 s）。

Z 分數轉換後的資料稱為「標準化資料」，具有以下特性：平均值為 0，標準差為 1。這在統計學上稱為標準常態分佈（Standard Normal Distribution）。

在機器學習的資料前處理階段，Z-score 標準化（也叫 Standardization）是最常用的縮放方式之一。使用 sklearn 只需幾行程式碼：

from sklearn.preprocessing import StandardScaler
import numpy as np

sales = np.array([80, 90, 100, 110, 140]).reshape(-1, 1)
scaler = StandardScaler()
z_scores = scaler.fit_transform(sales)
# 結果：[[-1.46], [-0.73], [0.], [0.73], [2.19]]

Z 分數在實務上的三個主要用途：

異常值偵測：一般規則是 |Z| > 3 才視為異常值（三個標準差以外），|Z| = 2 不必然是異常值，只是偏高。
特徵標準化：讓不同量綱的特徵放在同一尺度，改善距離型模型的表現。
統計比較：在不同分佈的資料集之間做公平比較（例如：不同科目的成績）。

與 Min-Max 正規化的區別：Z-score 不把資料壓縮到 [0,1] 區間，資料有離群值時比 Min-Max 更穩健。

05　陷阱

為什麼其他選項是錯的

A代表該數據點之原始數值為 2

字面在說什麼

Z 分數等於 2，所以這個數據點本來的數值就是 2。

為什麼不對

Z 分數是經過計算得來的「相對位置指標」，不是原始數值本身。原始值是 X，Z 是把 X 減掉平均再除以標準差的結果。Z = 2 只是說「距離平均有兩個標準差」，原始值可能是 140、可能是 0.006，完全取決於那組資料的平均跟標準差是多少。

誰會選錯

沒有仔細想 Z 分數定義，把「Z = 2」直接當「值 = 2」的人。記住：Z 是轉換後的標準化分數，不是原始資料。

B該數據點比平均值低 2 個標準差

字面在說什麼

Z = 2，所以比平均低 2 個標準差。

為什麼不對

Z 分數的正負號代表方向：正值表示高於平均，負值表示低於平均。Z = 2 是正數，所以一定是高於平均。低於平均應該是 Z = -2。

誰會選錯

把正負號搞混的人。有時候「2 個標準差」的方向感不直覺，需要記住：Z 正 = 高於均值，Z 負 = 低於均值。

C代表數據為異常值

字面在說什麼

Z 分數 = 2 代表這個數據點是異常值（Outlier）。

為什麼不對

Z = 2 確實是偏高，但「異常值」通常的門檻是 |Z| > 3（三個標準差以外），有些嚴格標準用 |Z| > 2.5。Z = 2 還在多數人接受的「正常範圍內偏高端」，不能直接斷定是異常值。題目沒有說這個門檻是什麼，Z = 2 最準確的說法仍是「比平均高 2 個標準差」，不是「異常」。

誰會選錯

記得「Z 分數可以用來抓異常值」，就以為 Z = 2 就是異常值的人。Z 分數是工具，「幾才算異常」要看設定的門檻，不是固定在 2。

06　變形

同個考點下次怎麼變形

變形 1

Z 分數等於 -1.5 代表什麼？

直覺

Z 是負數，所以是低於平均，而且是 1.5 個標準差。

答案

該數據點比平均值低 1.5 個標準差。在常態分佈裡，大約排在第 6.7 個百分位，贏過約 6.7% 的樣本。

變形 2

Z-score 標準化和 Min-Max 正規化有什麼差別？

直覺

兩個都是「縮放數值」，看起來很像，那哪個比較好？

答案

Z-score 把資料轉成「均值 0、標準差 1」，沒有固定上下限，對離群值比較不敏感。Min-Max 把資料壓縮到 [0,1]，離群值會嚴重壓縮其他資料的範圍。資料有明顯離群值時，Z-score 更穩健；需要固定範圍（如圖像像素）時用 Min-Max。

變形 3

如何用 Z 分數判斷離群值？

直覺

Z 分數可以抓離群值，但門檻是多少？

答案

常見做法是設 |Z| > 3 為離群值（三個標準差外，常態分佈下機率 < 0.27%）。也有人用 |Z| > 2.5 或 |Z| > 2，取決於應用的容錯程度。這個門檻是人設的，不是 Z 分數定義的一部分。

變形 4

對非常態分佈的資料，Z 分數還有意義嗎？

直覺

Z 分數跟常態分佈有關，如果資料不符合常態分佈怎麼辦？

答案

Z 分數本身的計算（X - μ）/ σ 不需要資料是常態分佈，任何資料都能算出 Z 值。但「Z = 2 代表第 97.7 百分位」這個推論只在常態分佈下成立。非常態分佈的資料，Z 值仍能描述相對位置，但百分位對應就不準了。

變形 5

機器學習為什麼需要做 Z-score 標準化？

直覺

特徵值差很多，不標準化會怎樣？

答案

KNN、SVM、邏輯迴歸等距離型或梯度型模型會受特徵尺度影響。「年齡（10-100）」跟「薪水（10000-100000）」不標準化，薪水的差異會完全主導距離計算，年齡的資訊幾乎沒用。Z-score 讓每個特徵站在同一個尺規上，避免大數字壟斷模型的判斷。

07　延伸

想再往下看，這 5 個

Z-score（Z 分數）核心考點，把原始值轉成「距離平均幾個標準差」的標準化指標。
正規化（Normalization）涵蓋 Z-score 標準化、Min-Max 等資料縮放方法的總稱，資料前處理必備。
描述性統計（Descriptive Statistics）平均數、標準差、Z 分數都是描述性統計的工具，用來概括資料分佈特性。
異常偵測（Anomaly Detection）Z 分數是異常偵測的基礎方法之一，|Z| > 3 通常用來標記可疑資料點。
常態分佈（Normal Distribution）Z 分數在常態分佈下有明確的百分位解釋，理解常態分佈讓 Z 值更有意義。