常態分佈(Normal Distribution)是什麼?

常態分佈是一種連續機率分佈,其機率密度函數呈鐘形曲線,平均數、中位數和眾數相等,數據集中在平均值附近。|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

常態分佈(Normal Distribution)是什麼? 統計方法機器學習

你有沒有注意過,很多自然現象都會圍著平均值上下波動? 你可以把它想成大多數人都靠近中間,只有少數人特別高或特別矮的那種鐘形分佈。 常態分佈是統計裡最重要的分佈之一,很多測量誤差和自然變異都接近它。 這也讓它很適合先拿到可用答案,再慢慢把精度往上推。

容易混淆

常態分佈 vs 均勻分佈 常態分佈:中間多、兩邊少 均勻分佈:每個區間機會差不多 最關鍵的區別:先看它是在比什麼,再看它怎麼做。

常態分佈 vs 偏態分佈 常態分佈:左右對稱 偏態分佈:一邊拖尾比較長 最關鍵的區別:先看它是在比什麼,再看它怎麼做。

記住這句就好

大多數值靠中間,少數值在兩邊。

實際案例

身高 成年人的身高常在平均值附近聚集,極端高或極端矮都少。

量測誤差 儀器每次量到的值會微微晃動,常接近常態分佈。

算法與應用

常態分佈由平均數和標準差決定形狀。 很多統計方法之所以好用,就是因為中央極限定理讓它們很常接近常態。 如果資料明顯偏斜,就不能硬當成常態。

情境判斷

Q1(直覺題): 你量很多次同一個人的身高,結果大多在平均附近,這像什麼分佈?

常態分佈。

Q2(判斷題): 如果資料一邊很長尾,還能直接當常態嗎?

不一定,得先看偏態和尾巴長度。

常見問題

標準常態分佈是什麼?

就是平均數 0、標準差 1 的常態分佈。

它一定出現在自然界嗎?

不是,但很多獨立誤差加總後會接近它。

為什麼機器學習常看到它?

因為很多模型、評估和誤差分析都會用到。

範例考題

某保險公司建立 AI 理賠金額預測模型。歷史理賠資料經檢定後呈近似常態分佈,但仍存在少數極端高額案件。資料科學團隊在不破壞整體分佈特性的前提下,規劃進行離群值處理。下列何者最不適當?

  • A. 依統計準則(如 Z-score 或 IQR)評估後,再決定是否調整或處理極端值
  • B. 採用截尾(Trimming)處理極端值,以提升模型穩定性
  • C. 使用 One-hot 編碼(One-hot Encoding)將離群值轉換為類別特徵以改善數值穩定性 ✓ 正確答案
  • D. 結合領域知識評估其合理性,再決定保留或修正

解析:

One-hot 編碼是用來將類別型特徵轉換為數值的方法,不適用於處理數值型的離群值。將數值離群值轉為類別特徵會破壞原始資料的數值意義,無法正確處理離群值問題。