常態近似二項分佈,什麼時候可以用?
某電商團隊觀察到,每位顧客對廣告推播的點擊行為可視為一次伯努利試驗(Bernoulli Trial),單次點擊成功機率為 p=0.4。當推播對象擴增至 5,000 位顧客時,團隊想快速預估「成功點擊總數」的分佈情形,以進行模型效能模擬與預測。若希望以常態分佈(Normal Distribution)近似原始分佈,下列哪一項判斷最為合理?
一個電商團隊把每位顧客的廣告點擊行為視為伯努利試驗(Bernoulli Trial),成功機率 p=0.4,共有 5,000 位顧客。團隊想用常態分佈(Normal Distribution)來近似這 5,000 次點擊的成功總數分佈,以便做模型模擬。
問你:用常態分佈近似二項分佈,成立的條件是什麼?
一句話總結
常態近似二項分佈的條件是:np > 5 且 n(1-p) > 5,兩個條件都要滿足,才能用常態分佈來近似。樣本數大只是必要但不充分,p 不能太極端。
先感受問題:5,000 人推播,點擊總數長什麼樣
廣告工程師小君在「鈺騰電商」負責廣告效能模擬。這週要評估一批新廣告:向 5,000 位顧客推播,歷史資料顯示每人點擊機率 p = 0.4。
小君想估算「最終點擊總數落在哪個範圍」,並計算超過某個門檻的機率。二項分佈理論上可以算,但 5,000 個的組合數算起來很慢,她想用常態分佈近似,速度快很多。
問題來了:這個近似用得合法嗎?條件是什麼?
直接用常態近似會遇到什麼問題
- p 極端時近似失準:若 p 很小(如 0.001),二項分佈極度右偏,常態分佈左右對稱的形狀根本對不上,預測區間差很多。
- n 太小時近似粗糙:樣本 10 人,期望點擊 4 人(np=4),分佈還是離散且不對稱,套常態會嚴重高估或低估尾端機率。
- 誤以為「n 夠大就好」:n=5,000 但 p=0.0002,np=1,仍不滿足條件,不能近似。光看 n 大就用常態是危險的。
- 沒有驗收標準:缺乏明確門檻(np>5 且 n(1-p)>5),每個人標準不同,有人說 np>10,造成溝通混亂。
- 連續修正被忽略:就算條件滿足,忘了做連續性修正(continuity correction),機率估算仍有偏差,尤其在計算 P(X=k) 這類精確機率時。
兩個條件都過才能用常態近似
統計學給出一個可操作的規則:用常態分佈近似二項分佈,MUST 同時滿足:
- np > 5(期望成功次數夠多)
- n(1-p) > 5(期望失敗次數也夠多)
小君的情境:n=5,000,p=0.4
- np = 5,000 × 0.4 = 2,000 > 5 ✓
- n(1-p) = 5,000 × 0.6 = 3,000 > 5 ✓
兩個條件都大幅超過 5,近似合法。她可以放心用常態分佈 N(2000, 1200) 來模擬點擊總數分佈。
這就是選項 B 講的:只有當 np 與 n(1-p) 皆大於 5 時,才能以常態分佈作近似。
技術版:np>5 和 n(1-p)>5 從哪裡來
中級考試大概率會考程式碼跟公式,所以這部分你還是要學。但如果現在學起來很痛苦,可以先跳過,等讀完其他題目回頭再來。
- 二項分佈(Binomial Distribution)是「n 次獨立試驗中,成功 k 次的機率」
- 當 n 夠大、p 不偏極端,二項分佈的形狀會愈來愈像鐘形,跟常態分佈很像
- 「像不像」的判斷標準:期望成功次數(np)和期望失敗次數(n(1-p))都要夠大
- 門檻設在 5:兩邊都 > 5 才算「鐘形夠對稱,用常態代替誤差可接受」
| 故事 | 數學符號 |
|---|---|
| 試驗次數(推播人數) | n = 5,000 |
| 單次成功機率(點擊率) | p = 0.4 |
| 期望成功次數 | np = 5,000 × 0.4 = 2,000 |
| 期望失敗次數 | n(1-p) = 5,000 × 0.6 = 3,000 |
| 近似後的常態分佈 | N(μ=np, σ²=np(1-p)) = N(2000, 1200) |
- n
- 試驗次數,這裡是推播的顧客人數 5,000。
- p
- 每次試驗的成功機率(點擊機率),這裡是 0.4。
- np
- 期望成功次數,即二項分佈的平均值(μ)。條件要求 np > 5。
- n(1-p)
- 期望失敗次數,即二項分佈的「另一半」。條件要求 n(1-p) > 5。
- np(1-p)
- 二項分佈的變異數(σ²),近似後的常態分佈就用這個當標準差的平方。
近似條件檢驗:
- 條件一:np = n × p > 5
- 條件二:n(1-p) = n × (1-p) > 5
滿足後,二項分佈 B(n, p) 可近似為:
- X ~ N(μ, σ²),其中 μ = np,σ² = np(1-p)
本題代入:μ = 2,000,σ² = 5,000 × 0.4 × 0.6 = 1,200,σ ≈ 34.6
蓋住公式,用自己的話說出這 4 步:
- 算 np(期望成功次數),檢查是否 > 5
- 算 n(1-p)(期望失敗次數),檢查是否 > 5
- 兩個都過才能近似,近似後用 N(np, np(1-p))
- 只有 n 大不夠,還要 p 不能太極端
講得出來代表這段你會了。
為什麼其他選項是錯的
A因樣本數極大,可直接以常態分佈近似二項分佈
只要 n 夠大,就可以用常態近似,不需要其他條件。
n 大是必要條件之一,但不充分。若 p 極小(例如 0.0001),就算 n=100 萬,np=100,n(1-p) 接近 n,看起來可以,但若是 p=0.000001、n=5000,np=0.005,遠低於 5,根本不能近似。判斷 MUST 看 np 和 n(1-p) 兩個值,不能只看 n。
記住「大樣本就近似常態」概念,但忘了這是中央極限定理的應用,條件不只是 n 大。
C常態近似只適用於 p=0.5 的情況
只有 p=0.5(對稱分佈)時才能用常態近似。
p=0.5 確實讓二項分佈最對稱,近似效果最好,但這不是唯一條件。只要 np>5 且 n(1-p)>5,即使 p 不等於 0.5,近似仍然合理。本題 p=0.4,完全符合條件。把 p=0.5 當成硬性要求是誤解。
認為「常態是對稱的,所以二項也要對稱(p=0.5)才能近似」的人,混淆了充分條件和必要條件。
D無論樣本數多大,二項分佈都不能以常態分佈近似
二項分佈是離散的,常態是連續的,永遠不能互相近似。
這是對統計近似概念的根本誤解。近似(approximation)本就是「不完全精確,但在可接受誤差範圍內的替代」。中央極限定理(Central Limit Theorem)保證:當條件滿足時,二項分佈確實收斂到常態分佈。
把「離散不等於連續」直接推論成「永遠不能互相近似」的人,過度執著於分佈類型的形式差異。
同個考點下次怎麼變形
若 n=50,p=0.04,能用常態近似嗎?
n 有 50 個,應該夠大了吧?
不能。np = 50 × 0.04 = 2 < 5,第一個條件不滿足。n 夠大但 p 太小,期望成功次數只有 2 次,分佈極度右偏,用常態近似誤差太大。
常態近似二項分佈後,μ 和 σ 分別是多少?
近似後的常態分佈,用什麼參數?
μ = np(二項分佈的期望值),σ = √(np(1-p))(二項分佈標準差)。本題 μ = 2,000,σ = √1,200 ≈ 34.6。
連續性修正(Continuity Correction)在什麼情況下需要?
條件滿足就直接用常態,還要再修正?
計算精確機率 P(X=k) 或邊界機率 P(X≤k)、P(X<k) 時需要。二項是離散的,常態是連續的,直接套會在邊界低估或高估。修正方式:P(X≤k) ≈ P(X_norm ≤ k+0.5)。
卜瓦松分佈(Poisson Distribution)也可以近似常態嗎?
卜瓦松跟二項一樣都是離散分佈,是不是也有類似條件?
可以,條件是 λ(期望值)夠大,通常 λ > 10 就可以用 N(λ, λ) 近似。概念一樣:當期望值夠大,離散分佈的形狀趨近鐘形。
為什麼說「np>5」而不是「np>30」?門檻是誰定的?
不同教科書說的門檻不一樣,到底以哪個為準?
門檻是約定俗成的,常見的有 np>5、np>10、np>30,不同教科書不同。考試以題目或課本標準為準。本題選項明確寫「大於 5」,故以 np>5 且 n(1-p)>5 為答案。重點是:必須兩個條件都查,而非只看 n。
想再往下看,這 5 個
- 常態分佈(Normal Distribution)統計學最重要的連續型分佈,鐘形曲線,是常態近似的目標分佈。
- 中央極限定理(Central Limit Theorem)大樣本下,樣本平均數趨近常態分佈,是常態近似二項的理論基礎。
- 機率分佈(Probability Distribution)描述隨機變數取各值的機率,二項分佈與常態分佈都是機率分佈的具體形式。
- 假設檢定(Hypothesis Testing)常態近似後可套用 Z 檢定進行假設檢定,判斷觀察到的點擊率是否顯著偏離預期。
- 描述性統計(Descriptive Statistics)np 與 n(1-p) 的計算本質上是對二項分佈的期望值與變異進行描述性評估。