iPAS AI 應用規劃師中級　科目二　大數據處理分析與應用

直方圖左側長尾，偏態值是正還是負？

原題 03

附圖為某資料之分佈圖（直方圖右側集中、左側出現負值的長尾，主峰位置約在 40 附近），此圖資料之偏態（Skewness）值較有可能為下列哪個選項？

白話

有一張直方圖，它的形狀是：大多數數據聚集在右邊（約 40 附近），但左邊延伸出一條往負值方向拉的長尾巴。

問你：這種「右邊高聳、左邊有長尾」的分佈圖，偏態（Skewness）值是正還是負，還是零，還是根本算不出來？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

長尾往左（負值方向）就是左偏分佈，Skewness < 0。「尾巴朝哪邊，偏態就是那個方向的符號」——尾往左是負偏，尾往右是正偏。

02　情境

先感受問題：考試成績的分佈

嘉誠補習班的模擬考結果：

大部分同學成績集中在 70-90 分（右邊高聳的主峰）
少數同學考了 20-30 分，甚至有人 0 分（左邊的長尾）
幾乎沒有人考超過 100 分（右邊沒有長尾）

畫成直方圖，形狀是：右邊（高分段）聳立著高峰，左邊（低分段）拖著一條長長的尾巴。

這種形狀就叫「左偏分佈」（Left-Skewed Distribution），也稱為「負偏」（Negative Skew）。

題目說的圖：主峰約在 40，右側（高值區）集中，左側出現往負值延伸的長尾。這就是同樣的形狀：主體在右邊，尾巴拉向左邊。

03　對照

靠直覺猜偏態方向，常見的誤判

看峰的位置猜錯方向：看到峰在右邊（高值），直覺說「往右偏」，但偏態看的是「尾巴的方向」，不是「峰的位置」。
混淆「高點在哪」跟「偏往哪」：「右側集中」就以為 Skewness > 0，其實「集中在右邊」代表長尾在左邊，是負偏。
對稱就是 0，只要不對稱就覺得無法判斷：看到不對稱就選「無法計算」，但偏態公式可以計算任何資料，結果會是正數、負數或 0，不會「無法計算」。
把偏態跟峰度搞混：偏態看的是分佈的「左右對稱性」，峰度（Kurtosis）看的是「尖峰程度」，兩個是不同指標。
不知道尾巴跟均值的關係：左偏時，少數極低值把均值往左拉，所以均值 < 中位數 < 眾數；這個關係對應考試很有用。

04　解法

一個口訣記住偏態方向

記住這個口訣：尾巴朝哪邊，偏態符號就是那邊。

長尾往右（Right tail）：正偏（Positive Skew），Skewness > 0
長尾往左（Left tail）：負偏（Negative Skew），Skewness < 0
左右對稱：Skewness = 0

題目的圖：右側集中（主峰在高值側）、左側有長尾往負值延伸。

套口訣：長尾在左邊 → 負偏 → Skewness < 0。

補充記憶：左偏時，少數極端低值把平均值拖低，所以平均值 < 中位數。

這就是選項 A 講的：Skewness < 0。

技術版：偏態的數學定義與實務應用

偏態（Skewness）衡量資料分佈相對於對稱軸的不對稱程度。常用的 Pearson 第三動差定義：

Skewness = E[(X - μ)³] / σ³

其中 μ 是平均數，σ 是標準差。

直覺解釋：分子是「各點偏離均值的三次方平均」。三次方保留了正負號：右側（X - μ > 0）的貢獻是正的，左側（X - μ < 0）的貢獻是負的。如果左尾比右尾長，左側的極端值（很大的負數三次方）會主導，讓整體 Skewness 為負。

三種情況的均值、中位數、眾數關係：

右偏（Skewness > 0）：眾數 < 中位數 < 平均數
左偏（Skewness < 0）：平均數 < 中位數 < 眾數
對稱（Skewness = 0）：三者相等（常態分佈）

用 pandas 計算：df['欄位'].skew()，回傳一個數值，正為右偏，負為左偏，接近 0 為對稱。

機器學習應用：高偏態特徵在訓練線性模型前通常需要做對數轉換（log transform），把分佈壓縮成接近常態，讓模型更容易學習。

05　陷阱

為什麼其他選項是錯的

BSkewness > 0

字面在說什麼

偏態是正的，也就是右偏分佈。

為什麼不對

右偏（Skewness > 0）是長尾往右邊延伸的情況，例如所得分佈（大多數人收入中等，少數超級富豪把尾巴往右拉）。題目的圖是長尾往左，是左偏，Skewness < 0，不是 > 0。

誰會選錯

看到「右側集中」就以為是「右偏（> 0）」的人。偏態的方向是看尾巴，不是看主峰在哪邊。主峰在右邊 = 尾巴在左邊 = 左偏 = 負偏。

CSkewness = 0

字面在說什麼

偏態等於 0，代表完全對稱的分佈（像標準常態分佈）。

為什麼不對

題目明確說「直方圖右側集中、左側出現長尾」，這是不對稱的形狀。Skewness = 0 要求左右完全對稱，跟題目描述矛盾。

誰會選錯

讀題不夠仔細，以為題目在考「常態分佈的偏態是多少」，忘了看清楚圖的描述有明顯不對稱。

D無法計算 Skewness

字面在說什麼

這個資料的偏態根本算不出來。

為什麼不對

偏態公式對任何有均值和標準差的資料都可以計算，沒有「無法計算」的情況（除非標準差為 0，即所有值完全一樣）。有資料就能算出偏態值，只是大小和正負不同。

誰會選錯

不確定偏態的定義，以為「看到不尋常的圖形就無法計算」的人。統計量只要有定義、有資料，都能算出數值。

06　變形

同個考點下次怎麼變形

變形 1

如果一組資料的平均值 < 中位數，這組資料是左偏還是右偏？

直覺

平均值和中位數的大小關係，跟偏態方向有關嗎？

答案

左偏（Skewness < 0）。左偏時，少數極端低值把平均值往左（小）拉，但中位數不受極端值影響，所以平均值 < 中位數。反之，右偏時平均值 > 中位數。

變形 2

所得分佈通常是左偏還是右偏？

直覺

大部分人薪水中等，少數人超高收入。這是哪種偏態？

答案

右偏（Skewness > 0）。少數超高收入者把尾巴往右（高值方向）拉，大部分人的薪水集中在左邊（低值段）。所得分佈是教科書最常舉的右偏例子。

變形 3

高偏態的特徵在做機器學習前，通常要做什麼處理？

直覺

偏態很大的欄位，直接丟進模型會有什麼問題？

答案

通常做對數轉換（log transform）或平方根轉換，把右偏分佈壓縮成接近常態。這樣可以改善線性模型的假設（誤差常態性）、減少離群值的影響、提升梯度下降的穩定性。

變形 4

偏態和峰度（Kurtosis）有什麼不同？

直覺

兩個都是描述分佈形狀的統計量，差別在哪？

答案

偏態衡量「左右不對稱的程度」（尾巴偏哪邊）；峰度衡量「峰的尖銳程度」（比常態分佈更尖還是更平）。Kurtosis = 3（常態分佈）；Kurtosis > 3 表示峰比常態更尖、尾更重；Kurtosis < 3 表示峰比常態更平。

變形 5

Skewness = -0.05 代表什麼？這個資料算對稱嗎？

直覺

偏態是個很小的負數，接近 0，怎麼解讀？

答案

接近 0 的偏態（通常 |Skewness| < 0.5）被認為是近似對稱。-0.05 極度接近 0，代表分佈幾乎對稱，只是略微向左偏一點點，在實務上可視為對稱分佈。

07　延伸

想再往下看，這 5 個

描述性統計（Descriptive Statistics）偏態是描述統計的一部分，用來描述資料分佈的形狀特性，與平均數、標準差並列。
常態分佈（Normal Distribution）Skewness = 0 的標準情況，理解常態分佈有助於判斷偏態程度的嚴重性。
資料前處理（Data Preprocessing）高偏態特徵通常需要在前處理階段做轉換（對數轉換等），才適合放入模型。
資料視覺化（Data Visualization）直方圖、箱型圖是觀察偏態的主要視覺工具，能快速判斷分佈形狀。
特徵工程（Feature Engineering）偏態分析是特徵工程的第一步，決定是否需要對特徵做分佈轉換。