iPAS AI 應用規劃師中級　科目二　大數據處理分析與應用

常態近似二項分佈，什麼時候可以用？

原題 31

某電商團隊觀察到，每位顧客對廣告推播的點擊行為可視為一次伯努利試驗（Bernoulli Trial），單次點擊成功機率為 p=0.4。當推播對象擴增至 5,000 位顧客時，團隊想快速預估「成功點擊總數」的分佈情形，以進行模型效能模擬與預測。若希望以常態分佈（Normal Distribution）近似原始分佈，下列哪一項判斷最為合理？

白話

一個電商團隊把每位顧客的廣告點擊行為視為伯努利試驗（Bernoulli Trial），成功機率 p=0.4，共有 5,000 位顧客。團隊想用常態分佈（Normal Distribution）來近似這 5,000 次點擊的成功總數分佈，以便做模型模擬。

問你：用常態分佈近似二項分佈，成立的條件是什麼？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

常態近似二項分佈的條件是：np > 5 且 n(1-p) > 5，兩個條件都要滿足，才能用常態分佈來近似。樣本數大只是必要但不充分，p 不能太極端。

02　情境

先感受問題：5,000 人推播，點擊總數長什麼樣

廣告工程師小君在「鈺騰電商」負責廣告效能模擬。這週要評估一批新廣告：向 5,000 位顧客推播，歷史資料顯示每人點擊機率 p = 0.4。

小君想估算「最終點擊總數落在哪個範圍」，並計算超過某個門檻的機率。二項分佈理論上可以算，但 5,000 個的組合數算起來很慢，她想用常態分佈近似，速度快很多。

問題來了：這個近似用得合法嗎？條件是什麼？

03　對照

直接用常態近似會遇到什麼問題

p 極端時近似失準：若 p 很小（如 0.001），二項分佈極度右偏，常態分佈左右對稱的形狀根本對不上，預測區間差很多。
n 太小時近似粗糙：樣本 10 人，期望點擊 4 人（np=4），分佈還是離散且不對稱，套常態會嚴重高估或低估尾端機率。
誤以為「n 夠大就好」：n=5,000 但 p=0.0002，np=1，仍不滿足條件，不能近似。光看 n 大就用常態是危險的。
沒有驗收標準：缺乏明確門檻（np>5 且 n(1-p)>5），每個人標準不同，有人說 np>10，造成溝通混亂。
連續修正被忽略：就算條件滿足，忘了做連續性修正（continuity correction），機率估算仍有偏差，尤其在計算 P(X=k) 這類精確機率時。

04　解法

兩個條件都過才能用常態近似

統計學給出一個可操作的規則：用常態分佈近似二項分佈，MUST 同時滿足：

np > 5（期望成功次數夠多）
n(1-p) > 5（期望失敗次數也夠多）

小君的情境：n=5,000，p=0.4

np = 5,000 × 0.4 = 2,000 > 5 ✓
n(1-p) = 5,000 × 0.6 = 3,000 > 5 ✓

兩個條件都大幅超過 5，近似合法。她可以放心用常態分佈 N(2000, 1200) 來模擬點擊總數分佈。

這就是選項 B 講的：只有當 np 與 n(1-p) 皆大於 5 時，才能以常態分佈作近似。

技術版：np>5 和 n(1-p)>5 從哪裡來

中級考試大概率會考程式碼跟公式，所以這部分你還是要學。但如果現在學起來很痛苦，可以先跳過，等讀完其他題目回頭再來。

Step 1 純故事版

二項分佈（Binomial Distribution）是「n 次獨立試驗中，成功 k 次的機率」
當 n 夠大、p 不偏極端，二項分佈的形狀會愈來愈像鐘形，跟常態分佈很像
「像不像」的判斷標準：期望成功次數（np）和期望失敗次數（n(1-p)）都要夠大
門檻設在 5：兩邊都 > 5 才算「鐘形夠對稱，用常態代替誤差可接受」

Step 2 中文 ↔ 公式對照

故事	數學符號
試驗次數（推播人數）	n = 5,000
單次成功機率（點擊率）	p = 0.4
期望成功次數	np = 5,000 × 0.4 = 2,000
期望失敗次數	n(1-p) = 5,000 × 0.6 = 3,000
近似後的常態分佈	N(μ=np, σ²=np(1-p)) = N(2000, 1200)

Step 3 符號角色表

n: 試驗次數，這裡是推播的顧客人數 5,000。
p: 每次試驗的成功機率（點擊機率），這裡是 0.4。
np: 期望成功次數，即二項分佈的平均值（μ）。條件要求 np > 5。
n(1-p): 期望失敗次數，即二項分佈的「另一半」。條件要求 n(1-p) > 5。
np(1-p): 二項分佈的變異數（σ²），近似後的常態分佈就用這個當標準差的平方。

Step 4 完整公式對應

近似條件檢驗：

條件一：np = n × p > 5
條件二：n(1-p) = n × (1-p) > 5

滿足後，二項分佈 B(n, p) 可近似為：

X ~ N(μ, σ²)，其中 μ = np，σ² = np(1-p)

本題代入：μ = 2,000，σ² = 5,000 × 0.4 × 0.6 = 1,200，σ ≈ 34.6

Step 5 自我複述

蓋住公式，用自己的話說出這 4 步：

算 np（期望成功次數），檢查是否 > 5
算 n(1-p)（期望失敗次數），檢查是否 > 5
兩個都過才能近似，近似後用 N(np, np(1-p))
只有 n 大不夠，還要 p 不能太極端

講得出來代表這段你會了。

05　陷阱

為什麼其他選項是錯的

A因樣本數極大，可直接以常態分佈近似二項分佈

字面在說什麼

只要 n 夠大，就可以用常態近似，不需要其他條件。

為什麼不對

n 大是必要條件之一，但不充分。若 p 極小（例如 0.0001），就算 n=100 萬，np=100，n(1-p) 接近 n，看起來可以，但若是 p=0.000001、n=5000，np=0.005，遠低於 5，根本不能近似。判斷 MUST 看 np 和 n(1-p) 兩個值，不能只看 n。

誰會選錯

記住「大樣本就近似常態」概念，但忘了這是中央極限定理的應用，條件不只是 n 大。

C常態近似只適用於 p=0.5 的情況

字面在說什麼

只有 p=0.5（對稱分佈）時才能用常態近似。

為什麼不對

p=0.5 確實讓二項分佈最對稱，近似效果最好，但這不是唯一條件。只要 np>5 且 n(1-p)>5，即使 p 不等於 0.5，近似仍然合理。本題 p=0.4，完全符合條件。把 p=0.5 當成硬性要求是誤解。

誰會選錯

認為「常態是對稱的，所以二項也要對稱（p=0.5）才能近似」的人，混淆了充分條件和必要條件。

D無論樣本數多大，二項分佈都不能以常態分佈近似

字面在說什麼

二項分佈是離散的，常態是連續的，永遠不能互相近似。

為什麼不對

這是對統計近似概念的根本誤解。近似（approximation）本就是「不完全精確，但在可接受誤差範圍內的替代」。中央極限定理（Central Limit Theorem）保證：當條件滿足時，二項分佈確實收斂到常態分佈。

誰會選錯

把「離散不等於連續」直接推論成「永遠不能互相近似」的人，過度執著於分佈類型的形式差異。

06　變形

同個考點下次怎麼變形

變形 1

若 n=50，p=0.04，能用常態近似嗎？

直覺

n 有 50 個，應該夠大了吧？

答案

不能。np = 50 × 0.04 = 2 < 5，第一個條件不滿足。n 夠大但 p 太小，期望成功次數只有 2 次，分佈極度右偏，用常態近似誤差太大。

變形 2

常態近似二項分佈後，μ 和 σ 分別是多少？

直覺

近似後的常態分佈，用什麼參數？

答案

μ = np（二項分佈的期望值），σ = √(np(1-p))（二項分佈標準差）。本題 μ = 2,000，σ = √1,200 ≈ 34.6。

變形 3

連續性修正（Continuity Correction）在什麼情況下需要？

直覺

條件滿足就直接用常態，還要再修正？

答案

計算精確機率 P(X=k) 或邊界機率 P(X≤k)、P(X<k) 時需要。二項是離散的，常態是連續的，直接套會在邊界低估或高估。修正方式：P(X≤k) ≈ P(X_norm ≤ k+0.5)。

變形 4

卜瓦松分佈（Poisson Distribution）也可以近似常態嗎？

直覺

卜瓦松跟二項一樣都是離散分佈，是不是也有類似條件？

答案

可以，條件是 λ（期望值）夠大，通常 λ > 10 就可以用 N(λ, λ) 近似。概念一樣：當期望值夠大，離散分佈的形狀趨近鐘形。

變形 5

為什麼說「np>5」而不是「np>30」？門檻是誰定的？

直覺

不同教科書說的門檻不一樣，到底以哪個為準？

答案

門檻是約定俗成的，常見的有 np>5、np>10、np>30，不同教科書不同。考試以題目或課本標準為準。本題選項明確寫「大於 5」，故以 np>5 且 n(1-p)>5 為答案。重點是：必須兩個條件都查，而非只看 n。

07　延伸

想再往下看，這 5 個

常態分佈（Normal Distribution）統計學最重要的連續型分佈，鐘形曲線，是常態近似的目標分佈。
中央極限定理（Central Limit Theorem）大樣本下，樣本平均數趨近常態分佈，是常態近似二項的理論基礎。
機率分佈（Probability Distribution）描述隨機變數取各值的機率，二項分佈與常態分佈都是機率分佈的具體形式。
假設檢定（Hypothesis Testing）常態近似後可套用 Z 檢定進行假設檢定，判斷觀察到的點擊率是否顯著偏離預期。
描述性統計（Descriptive Statistics）np 與 n(1-p) 的計算本質上是對二項分佈的期望值與變異進行描述性評估。