iPAS AI 應用規劃師 中級 科目二 大數據處理分析與應用

常態近似二項分佈,什麼時候可以用?

原題 31

某電商團隊觀察到,每位顧客對廣告推播的點擊行為可視為一次伯努利試驗(Bernoulli Trial),單次點擊成功機率為 p=0.4。當推播對象擴增至 5,000 位顧客時,團隊想快速預估「成功點擊總數」的分佈情形,以進行模型效能模擬與預測。若希望以常態分佈(Normal Distribution)近似原始分佈,下列哪一項判斷最為合理?

白話

一個電商團隊把每位顧客的廣告點擊行為視為伯努利試驗(Bernoulli Trial),成功機率 p=0.4,共有 5,000 位顧客。團隊想用常態分佈(Normal Distribution)來近似這 5,000 次點擊的成功總數分佈,以便做模型模擬。

問你:用常態分佈近似二項分佈,成立的條件是什麼?

點選你的答案。

01 總結

一句話總結

常態近似二項分佈的條件是:np > 5 且 n(1-p) > 5,兩個條件都要滿足,才能用常態分佈來近似。樣本數大只是必要但不充分,p 不能太極端。

02 情境

先感受問題:5,000 人推播,點擊總數長什麼樣

廣告工程師小君在「鈺騰電商」負責廣告效能模擬。這週要評估一批新廣告:向 5,000 位顧客推播,歷史資料顯示每人點擊機率 p = 0.4。

小君想估算「最終點擊總數落在哪個範圍」,並計算超過某個門檻的機率。二項分佈理論上可以算,但 5,000 個的組合數算起來很慢,她想用常態分佈近似,速度快很多。

問題來了:這個近似用得合法嗎?條件是什麼?

03 對照

直接用常態近似會遇到什麼問題

  1. p 極端時近似失準:若 p 很小(如 0.001),二項分佈極度右偏,常態分佈左右對稱的形狀根本對不上,預測區間差很多。
  2. n 太小時近似粗糙:樣本 10 人,期望點擊 4 人(np=4),分佈還是離散且不對稱,套常態會嚴重高估或低估尾端機率。
  3. 誤以為「n 夠大就好」:n=5,000 但 p=0.0002,np=1,仍不滿足條件,不能近似。光看 n 大就用常態是危險的。
  4. 沒有驗收標準:缺乏明確門檻(np>5 且 n(1-p)>5),每個人標準不同,有人說 np>10,造成溝通混亂。
  5. 連續修正被忽略:就算條件滿足,忘了做連續性修正(continuity correction),機率估算仍有偏差,尤其在計算 P(X=k) 這類精確機率時。
04 解法

兩個條件都過才能用常態近似

統計學給出一個可操作的規則:用常態分佈近似二項分佈,MUST 同時滿足:

  • np > 5(期望成功次數夠多)
  • n(1-p) > 5(期望失敗次數也夠多)

小君的情境:n=5,000,p=0.4

  • np = 5,000 × 0.4 = 2,000 > 5 ✓
  • n(1-p) = 5,000 × 0.6 = 3,000 > 5 ✓

兩個條件都大幅超過 5,近似合法。她可以放心用常態分佈 N(2000, 1200) 來模擬點擊總數分佈。

這就是選項 B 講的:只有當 np 與 n(1-p) 皆大於 5 時,才能以常態分佈作近似

技術版:np>5 和 n(1-p)>5 從哪裡來

中級考試大概率會考程式碼跟公式,所以這部分你還是要學。但如果現在學起來很痛苦,可以先跳過,等讀完其他題目回頭再來。

Step 1 純故事版
  1. 二項分佈(Binomial Distribution)是「n 次獨立試驗中,成功 k 次的機率」
  2. 當 n 夠大、p 不偏極端,二項分佈的形狀會愈來愈像鐘形,跟常態分佈很像
  3. 「像不像」的判斷標準:期望成功次數(np)和期望失敗次數(n(1-p))都要夠大
  4. 門檻設在 5:兩邊都 > 5 才算「鐘形夠對稱,用常態代替誤差可接受」
Step 2 中文 ↔ 公式對照
故事數學符號
試驗次數(推播人數)n = 5,000
單次成功機率(點擊率)p = 0.4
期望成功次數np = 5,000 × 0.4 = 2,000
期望失敗次數n(1-p) = 5,000 × 0.6 = 3,000
近似後的常態分佈N(μ=np, σ²=np(1-p)) = N(2000, 1200)
Step 3 符號角色表
n
試驗次數,這裡是推播的顧客人數 5,000。
p
每次試驗的成功機率(點擊機率),這裡是 0.4。
np
期望成功次數,即二項分佈的平均值(μ)。條件要求 np > 5。
n(1-p)
期望失敗次數,即二項分佈的「另一半」。條件要求 n(1-p) > 5。
np(1-p)
二項分佈的變異數(σ²),近似後的常態分佈就用這個當標準差的平方。
Step 4 完整公式對應

近似條件檢驗:

  • 條件一:np = n × p > 5
  • 條件二:n(1-p) = n × (1-p) > 5

滿足後,二項分佈 B(n, p) 可近似為:

  • X ~ N(μ, σ²),其中 μ = np,σ² = np(1-p)

本題代入:μ = 2,000,σ² = 5,000 × 0.4 × 0.6 = 1,200,σ ≈ 34.6

Step 5 自我複述

蓋住公式,用自己的話說出這 4 步:

  1. 算 np(期望成功次數),檢查是否 > 5
  2. 算 n(1-p)(期望失敗次數),檢查是否 > 5
  3. 兩個都過才能近似,近似後用 N(np, np(1-p))
  4. 只有 n 大不夠,還要 p 不能太極端

講得出來代表這段你會了。

05 陷阱

為什麼其他選項是錯的

A因樣本數極大,可直接以常態分佈近似二項分佈

字面在說什麼

只要 n 夠大,就可以用常態近似,不需要其他條件。

為什麼不對

n 大是必要條件之一,但不充分。若 p 極小(例如 0.0001),就算 n=100 萬,np=100,n(1-p) 接近 n,看起來可以,但若是 p=0.000001、n=5000,np=0.005,遠低於 5,根本不能近似。判斷 MUST 看 np 和 n(1-p) 兩個值,不能只看 n。

誰會選錯

記住「大樣本就近似常態」概念,但忘了這是中央極限定理的應用,條件不只是 n 大。

C常態近似只適用於 p=0.5 的情況

字面在說什麼

只有 p=0.5(對稱分佈)時才能用常態近似。

為什麼不對

p=0.5 確實讓二項分佈最對稱,近似效果最好,但這不是唯一條件。只要 np>5 且 n(1-p)>5,即使 p 不等於 0.5,近似仍然合理。本題 p=0.4,完全符合條件。把 p=0.5 當成硬性要求是誤解。

誰會選錯

認為「常態是對稱的,所以二項也要對稱(p=0.5)才能近似」的人,混淆了充分條件和必要條件。

D無論樣本數多大,二項分佈都不能以常態分佈近似

字面在說什麼

二項分佈是離散的,常態是連續的,永遠不能互相近似。

為什麼不對

這是對統計近似概念的根本誤解。近似(approximation)本就是「不完全精確,但在可接受誤差範圍內的替代」。中央極限定理(Central Limit Theorem)保證:當條件滿足時,二項分佈確實收斂到常態分佈。

誰會選錯

把「離散不等於連續」直接推論成「永遠不能互相近似」的人,過度執著於分佈類型的形式差異。

06 變形

同個考點下次怎麼變形

變形 1

若 n=50,p=0.04,能用常態近似嗎?

直覺

n 有 50 個,應該夠大了吧?

答案

不能。np = 50 × 0.04 = 2 < 5,第一個條件不滿足。n 夠大但 p 太小,期望成功次數只有 2 次,分佈極度右偏,用常態近似誤差太大。

變形 2

常態近似二項分佈後,μ 和 σ 分別是多少?

直覺

近似後的常態分佈,用什麼參數?

答案

μ = np(二項分佈的期望值),σ = √(np(1-p))(二項分佈標準差)。本題 μ = 2,000,σ = √1,200 ≈ 34.6。

變形 3

連續性修正(Continuity Correction)在什麼情況下需要?

直覺

條件滿足就直接用常態,還要再修正?

答案

計算精確機率 P(X=k) 或邊界機率 P(X≤k)、P(X<k) 時需要。二項是離散的,常態是連續的,直接套會在邊界低估或高估。修正方式:P(X≤k) ≈ P(X_norm ≤ k+0.5)。

變形 4

卜瓦松分佈(Poisson Distribution)也可以近似常態嗎?

直覺

卜瓦松跟二項一樣都是離散分佈,是不是也有類似條件?

答案

可以,條件是 λ(期望值)夠大,通常 λ > 10 就可以用 N(λ, λ) 近似。概念一樣:當期望值夠大,離散分佈的形狀趨近鐘形。

變形 5

為什麼說「np>5」而不是「np>30」?門檻是誰定的?

直覺

不同教科書說的門檻不一樣,到底以哪個為準?

答案

門檻是約定俗成的,常見的有 np>5、np>10、np>30,不同教科書不同。考試以題目或課本標準為準。本題選項明確寫「大於 5」,故以 np>5 且 n(1-p)>5 為答案。重點是:必須兩個條件都查,而非只看 n。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 114 年第二梯次 iPAS AI 應用規劃師 中級 科目二 大數據處理分析與應用 第 31 題

查看官方原文 PDF