直方圖左側長尾,偏態值是正還是負?
附圖為某資料之分佈圖(直方圖右側集中、左側出現負值的長尾,主峰位置約在 40 附近),此圖資料之偏態(Skewness)值較有可能為下列哪個選項?
有一張直方圖,它的形狀是:大多數數據聚集在右邊(約 40 附近),但左邊延伸出一條往負值方向拉的長尾巴。
問你:這種「右邊高聳、左邊有長尾」的分佈圖,偏態(Skewness)值是正還是負,還是零,還是根本算不出來?
一句話總結
長尾往左(負值方向)就是左偏分佈,Skewness < 0。「尾巴朝哪邊,偏態就是那個方向的符號」——尾往左是負偏,尾往右是正偏。
先感受問題:考試成績的分佈
嘉誠補習班的模擬考結果:
少數同學考了 20-30 分,甚至有人 0 分(左邊的長尾)
幾乎沒有人考超過 100 分(右邊沒有長尾)
畫成直方圖,形狀是:右邊(高分段)聳立著高峰,左邊(低分段)拖著一條長長的尾巴。
這種形狀就叫「左偏分佈」(Left-Skewed Distribution),也稱為「負偏」(Negative Skew)。
題目說的圖:主峰約在 40,右側(高值區)集中,左側出現往負值延伸的長尾。這就是同樣的形狀:主體在右邊,尾巴拉向左邊。
靠直覺猜偏態方向,常見的誤判
- 看峰的位置猜錯方向:看到峰在右邊(高值),直覺說「往右偏」,但偏態看的是「尾巴的方向」,不是「峰的位置」。
- 混淆「高點在哪」跟「偏往哪」:「右側集中」就以為 Skewness > 0,其實「集中在右邊」代表長尾在左邊,是負偏。
- 對稱就是 0,只要不對稱就覺得無法判斷:看到不對稱就選「無法計算」,但偏態公式可以計算任何資料,結果會是正數、負數或 0,不會「無法計算」。
- 把偏態跟峰度搞混:偏態看的是分佈的「左右對稱性」,峰度(Kurtosis)看的是「尖峰程度」,兩個是不同指標。
- 不知道尾巴跟均值的關係:左偏時,少數極低值把均值往左拉,所以均值 < 中位數 < 眾數;這個關係對應考試很有用。
一個口訣記住偏態方向
記住這個口訣:尾巴朝哪邊,偏態符號就是那邊。
- 長尾往右(Right tail):正偏(Positive Skew),Skewness > 0
- 長尾往左(Left tail):負偏(Negative Skew),Skewness < 0
- 左右對稱:Skewness = 0
題目的圖:右側集中(主峰在高值側)、左側有長尾往負值延伸。
套口訣:長尾在左邊 → 負偏 → Skewness < 0。
補充記憶:左偏時,少數極端低值把平均值拖低,所以平均值 < 中位數。
這就是選項 A 講的:Skewness < 0。
技術版:偏態的數學定義與實務應用
偏態(Skewness)衡量資料分佈相對於對稱軸的不對稱程度。常用的 Pearson 第三動差定義:
Skewness = E[(X - μ)³] / σ³
其中 μ 是平均數,σ 是標準差。
直覺解釋:分子是「各點偏離均值的三次方平均」。三次方保留了正負號:右側(X - μ > 0)的貢獻是正的,左側(X - μ < 0)的貢獻是負的。如果左尾比右尾長,左側的極端值(很大的負數三次方)會主導,讓整體 Skewness 為負。
三種情況的均值、中位數、眾數關係:
- 右偏(Skewness > 0):眾數 < 中位數 < 平均數
- 左偏(Skewness < 0):平均數 < 中位數 < 眾數
- 對稱(Skewness = 0):三者相等(常態分佈)
用 pandas 計算:df['欄位'].skew(),回傳一個數值,正為右偏,負為左偏,接近 0 為對稱。
機器學習應用:高偏態特徵在訓練線性模型前通常需要做對數轉換(log transform),把分佈壓縮成接近常態,讓模型更容易學習。
為什麼其他選項是錯的
BSkewness > 0
偏態是正的,也就是右偏分佈。
右偏(Skewness > 0)是長尾往右邊延伸的情況,例如所得分佈(大多數人收入中等,少數超級富豪把尾巴往右拉)。題目的圖是長尾往左,是左偏,Skewness < 0,不是 > 0。
看到「右側集中」就以為是「右偏(> 0)」的人。偏態的方向是看尾巴,不是看主峰在哪邊。主峰在右邊 = 尾巴在左邊 = 左偏 = 負偏。
CSkewness = 0
偏態等於 0,代表完全對稱的分佈(像標準常態分佈)。
題目明確說「直方圖右側集中、左側出現長尾」,這是不對稱的形狀。Skewness = 0 要求左右完全對稱,跟題目描述矛盾。
讀題不夠仔細,以為題目在考「常態分佈的偏態是多少」,忘了看清楚圖的描述有明顯不對稱。
D無法計算 Skewness
這個資料的偏態根本算不出來。
偏態公式對任何有均值和標準差的資料都可以計算,沒有「無法計算」的情況(除非標準差為 0,即所有值完全一樣)。有資料就能算出偏態值,只是大小和正負不同。
不確定偏態的定義,以為「看到不尋常的圖形就無法計算」的人。統計量只要有定義、有資料,都能算出數值。
同個考點下次怎麼變形
如果一組資料的平均值 < 中位數,這組資料是左偏還是右偏?
平均值和中位數的大小關係,跟偏態方向有關嗎?
左偏(Skewness < 0)。左偏時,少數極端低值把平均值往左(小)拉,但中位數不受極端值影響,所以平均值 < 中位數。反之,右偏時平均值 > 中位數。
所得分佈通常是左偏還是右偏?
大部分人薪水中等,少數人超高收入。這是哪種偏態?
右偏(Skewness > 0)。少數超高收入者把尾巴往右(高值方向)拉,大部分人的薪水集中在左邊(低值段)。所得分佈是教科書最常舉的右偏例子。
高偏態的特徵在做機器學習前,通常要做什麼處理?
偏態很大的欄位,直接丟進模型會有什麼問題?
通常做對數轉換(log transform)或平方根轉換,把右偏分佈壓縮成接近常態。這樣可以改善線性模型的假設(誤差常態性)、減少離群值的影響、提升梯度下降的穩定性。
偏態和峰度(Kurtosis)有什麼不同?
兩個都是描述分佈形狀的統計量,差別在哪?
偏態衡量「左右不對稱的程度」(尾巴偏哪邊);峰度衡量「峰的尖銳程度」(比常態分佈更尖還是更平)。Kurtosis = 3(常態分佈);Kurtosis > 3 表示峰比常態更尖、尾更重;Kurtosis < 3 表示峰比常態更平。
Skewness = -0.05 代表什麼?這個資料算對稱嗎?
偏態是個很小的負數,接近 0,怎麼解讀?
接近 0 的偏態(通常 |Skewness| < 0.5)被認為是近似對稱。-0.05 極度接近 0,代表分佈幾乎對稱,只是略微向左偏一點點,在實務上可視為對稱分佈。
想再往下看,這 5 個
- 描述性統計(Descriptive Statistics)偏態是描述統計的一部分,用來描述資料分佈的形狀特性,與平均數、標準差並列。
- 常態分佈(Normal Distribution)Skewness = 0 的標準情況,理解常態分佈有助於判斷偏態程度的嚴重性。
- 資料前處理(Data Preprocessing)高偏態特徵通常需要在前處理階段做轉換(對數轉換等),才適合放入模型。
- 資料視覺化(Data Visualization)直方圖、箱型圖是觀察偏態的主要視覺工具,能快速判斷分佈形狀。
- 特徵工程(Feature Engineering)偏態分析是特徵工程的第一步,決定是否需要對特徵做分佈轉換。