ND（常態分佈）是什麼？完整定義與解說

不是，但很多獨立誤差加總後會接近它。

因為很多模型、評估和誤差分析都會用到。

統計方法機器學習

你有沒有注意過，很多自然現象都會圍著平均值上下波動？ 你可以把它想成大多數人都靠近中間，只有少數人特別高或特別矮的那種鐘形分佈。常態分佈是統計裡最重要的分佈之一，很多測量誤差和自然變異都接近它。這也讓它很適合先拿到可用答案，再慢慢把精度往上推。

容易混淆

常態分佈 vs 均勻分佈 常態分佈：中間多、兩邊少均勻分佈：每個區間機會差不多最關鍵的區別：先看它是在比什麼，再看它怎麼做。

常態分佈 vs 偏態分佈 常態分佈：左右對稱偏態分佈：一邊拖尾比較長最關鍵的區別：先看它是在比什麼，再看它怎麼做。

大多數值靠中間，少數值在兩邊。

身高成年人的身高常在平均值附近聚集，極端高或極端矮都少。

量測誤差 儀器每次量到的值會微微晃動，常接近常態分佈。

常態分佈由平均數和標準差決定形狀。很多統計方法之所以好用，就是因為中央極限定理讓它們很常接近常態。如果資料明顯偏斜，就不能硬當成常態。

Q1（直覺題）： 你量很多次同一個人的身高，結果大多在平均附近，這像什麼分佈？

常態分佈。

Q2（判斷題）： 如果資料一邊很長尾，還能直接當常態嗎？

不一定，得先看偏態和尾巴長度。

標準常態分佈是什麼？

就是平均數 0、標準差 1 的常態分佈。

它一定出現在自然界嗎？

不是，但很多獨立誤差加總後會接近它。

為什麼機器學習常看到它？

因為很多模型、評估和誤差分析都會用到。

某保險公司建立 AI 理賠金額預測模型。歷史理賠資料經檢定後呈近似常態分佈，但仍存在少數極端高額案件。資料科學團隊在不破壞整體分佈特性的前提下，規劃進行離群值處理。下列何者最不適當？

解析：

One-hot 編碼是用來將類別型特徵轉換為數值的方法，不適用於處理數值型的離群值。將數值離群值轉為類別特徵會破壞原始資料的數值意義，無法正確處理離群值問題。