描述客服來電數量該用哪種分佈?
某客服中心統計資料發現,平均每小時會接到約 20 通顧客來電,但每分鐘的來電數量不固定,可能為 0、1、2 通不等。這些來電事件彼此獨立,且在短時間內,發生的機率與時間長短成正比。若要以機率模型描述「每分鐘接到幾通來電」的機率分佈,下列哪一種最適合使用?
客服中心平均每小時接 20 通電話。具體到每一分鐘,可能接到 0 通、1 通或 2 通,數量不固定。每一通電話的發生和其他通話沒有關聯(彼此獨立),而且在更短的時間內,來電機率跟時間長度成比例。
問你:哪一種機率分佈最適合描述「某一分鐘內接到幾通電話」這個情況?
一句話總結
「固定時段內,發生次數不固定、事件彼此獨立、平均速率已知」:這三個條件完全符合卜瓦松分佈(Poisson Distribution)的使用情境,用它來描述「每分鐘接到幾通電話」再精準不過。
先感受問題:客服排班要準備幾個人?
聯捷電商的客服主管曉薇,負責安排客服班次。她知道每小時平均有 20 通來電,換算下來每分鐘平均 20/60 ≈ 0.33 通。
但她不知道的是:某一分鐘是否真的會有電話進來?會有 0 通?1 通?還是偶爾衝到 3 通?
如果她能算出「某一分鐘接到 0 通的機率」「接到 1 通的機率」「接到 2 通的機率」,她就能更精準地安排值班人力,不會讓客戶等太久,也不會浪費人力成本。
這種「固定時間視窗內、計數隨機事件發生次數」的問題,就是卜瓦松分佈(Poisson Distribution)的經典應用場景。
用錯分佈會造成什麼問題
- 用均勻分佈的錯誤:均勻分佈假設所有結果機率相等(例如擲骰子)。但來電數量不是「0 到 10 通都一樣可能發生」,事實上 0 通最常見,越多通電話越少見,用均勻分佈完全不符合實際觀察。
- 用常態分佈的錯誤:常態分佈是連續分佈,可以取任何實數值(包括負數),而來電次數是非負整數(0、1、2...),用連續分佈描述計數資料在概念上就不對。樣本數極大時 Poisson 才漸近常態。
- 用指數分佈的錯誤:指數分佈描述的是「兩次事件之間的等待時間」(例如:下一通電話多久後會來),不是「某段時間內發生幾次」。雖然兩者密切相關,但問題形式不同。
- 忽視「事件獨立性」假設的錯誤:卜瓦松分佈要求每次事件獨立發生。如果來電會互相影響(例如:一個大客戶打電話後,會帶動其他客戶也打來),就不符合假設,卜瓦松分佈的預測就不準確。
- 用錯分佈導致資源誤估:如果用常態分佈估算,預測某分鐘接到「-2 通」電話就荒謬了;用均勻分佈則會高估高來電次數的機率,導致排太多客服卻閒著。
卜瓦松分佈:計算固定時段內「發生幾次」的機率
聯捷電商的曉薇用卜瓦松分佈來建立來電模型:
已知:平均每分鐘接到 λ = 20/60 ≈ 0.333 通電話。
題目給出的條件完全符合卜瓦松分佈的三個假設:
2. 事件彼此獨立(每通電話的發生不影響其他通話)
3. 在短時間內,機率與時間長短成正比(稀有事件假設)
用卜瓦松公式,曉薇可以算出某一分鐘:
- 接到 0 通的機率(最常見)
- 接到 1 通的機率
- 接到 2 通或更多通的機率(較少見)
有了這個分佈,排班規劃就有了數學依據,而不是憑感覺猜。
這就是選項 C 講的:卜瓦松分佈(Poisson distribution)。
技術版:卜瓦松分佈的數學性質與應用條件
卜瓦松分佈(Poisson Distribution)的機率質量函數
P(X = k) = (λ^k × e^(-λ)) / k!
其中:λ(Lambda)= 固定時間區間內的平均事件發生次數,k = 實際發生次數(非負整數),e ≈ 2.718(自然常數)。
卜瓦松分佈的特性
- 期望值 E(X) = λ
- 變異數 Var(X) = λ(期望值和變異數相等,是卜瓦松分佈的獨特性質)
- 只取非負整數值(0、1、2、3...)
- λ 很大時,卜瓦松分佈趨近常態分佈
適用卜瓦松分佈的三個條件
- 事件在固定時間區間(或空間區域)內發生
- 事件彼此獨立(一個事件的發生不影響另一個)
- 短時間內,事件發生的機率與時間長度成正比(稀有事件假設,發生機率小)
計算範例(本題)
λ = 20/60 ≈ 0.333(每分鐘平均來電通數) P(X=0) = (0.333^0 × e^(-0.333)) / 0! = e^(-0.333) ≈ 0.717(71.7% 的分鐘沒有電話) P(X=1) = (0.333^1 × e^(-0.333)) / 1! ≈ 0.239(23.9%) P(X=2) = (0.333^2 × e^(-0.333)) / 2! ≈ 0.040(4.0%) P(X≥3) ≈ 0.004(約 0.4%,非常少見)
卜瓦松分佈的其他應用場景
- 每小時某路口發生的交通事故次數
- 每天網站收到的惡意攻擊次數
- 某區域每年發生的自然災害次數
- 機器學習中的文本詞頻(稀有詞的出現次數)
卜瓦松 vs 指數分佈的關係:如果事件按卜瓦松過程發生(速率 λ),那麼「兩次事件之間的等待時間」服從指數分佈(參數 λ)。它們描述同一個隨機過程的不同面向:卜瓦松看「次數」,指數看「間隔時間」。
為什麼其他選項是錯的
A均勻分佈(Uniform distribution)
每一種可能的來電數量機率相同,例如 0 通、1 通、2 通的機率各 1/3。
均勻分佈假設每個結果等可能發生,適合擲骰子、隨機號碼產生這類情境。來電數量不是「0 到 n 通都一樣可能」,在低到中等負載時,0 通最常見,次數越多越少見,機率遞減。均勻分佈完全無法反映這個現象。
對「分佈」概念模糊,覺得只要有多個結果就用均勻分佈的人。均勻分佈是「所有結果機率相等」的特殊情況,不是預設選項。
B指數分佈(Exponential distribution)
用指數分佈來描述來電次數的機率。
指數分佈描述的是「等待時間」,例如「下一通電話多久後才來」(連續型,可以是任意正實數)。題目問的是「某一分鐘內接到幾通」(離散計數,只取非負整數)。雖然指數分佈和卜瓦松分佈有數學上的對應關係,但兩者描述的問題形式不同,不能混用。
知道指數分佈也用在描述事件發生,但沒有分清楚「等待時間(指數)」和「發生次數(卜瓦松)」的差別。
D常態分佈(Normal distribution)
用鐘形曲線描述每分鐘來電數量的分佈。
常態分佈是連續型分佈,理論上取值從負無窮到正無窮,不適合描述「只取非負整數」的計數資料。來電次數不可能是 -1.5 通。雖然當 λ 很大時卜瓦松分佈會趨近常態分佈,但在這道題(λ ≈ 0.33,非常小)的情況下,常態近似完全不適用。
把常態分佈當「通用分佈」的人。常態分佈是自然界很常見的分佈,但不是所有資料都適用,特別是計數資料和等待時間資料。
同個考點下次怎麼變形
「下一通電話多久後會來」,應該用哪種分佈描述?
來電間隔時間,不是次數,要換一種分佈?
應用指數分佈(Exponential Distribution)。如果每分鐘平均來電 λ 通,則兩通電話之間的等待時間服從指數分佈,期望等待時間 = 1/λ 分鐘。指數分佈的特性是「無記憶性」:不管上一通電話等了多久,下一通電話的等待時間分佈不變。
卜瓦松分佈的期望值和變異數有什麼特別的關係?
為什麼卜瓦松分佈的期望值和變異數都等於 λ?
這是卜瓦松分佈的獨特性質:E(X) = Var(X) = λ。在實務資料分析中,如果你觀察到計數資料的均值和變異數「幾乎相等」,這是卜瓦松分佈的一個徵兆。如果變異數明顯大於均值(過度離散,Overdispersion),應考慮負二項分佈(Negative Binomial Distribution)。
哪些現象可以用卜瓦松分佈建模?
除了電話,還有什麼情境適合?
所有「固定時間或空間內,發生次數可計數、事件獨立」的情境:每天收到的客訴數量、每小時網路請求數、每月發生的機器故障次數、文字中特定詞出現的頻率(Zipf 分佈的近似)、放射性衰變的粒子計數。核心判斷:「計數」而非「連續量」,且事件獨立、發生率穩定。
常態分佈適合描述什麼類型的資料?
常態分佈不適合來電次數,那它適合什麼?
常態分佈適合連續型、對稱分佈、沒有下界限制的資料:人的身高體重、測量誤差、財務報酬率(近似)、大量獨立隨機變數的總和(中央極限定理)。關鍵特徵:連續、對稱(均值 = 中位數 = 眾數)、鐘形曲線。
λ 很大時,卜瓦松分佈趨近哪種分佈?
λ 越大,分佈形狀會改變嗎?
當 λ 很大(通常 λ > 30 就相當接近),卜瓦松分佈趨近常態分佈 N(μ=λ, σ²=λ)。這是中央極限定理的一種體現:很多獨立稀有事件累加起來,趨向常態。在 λ 大的情境下,可以用常態分佈近似計算,但在 λ 小(本題 λ ≈ 0.33)時,分佈高度右偏,常態近似完全不適用。
想再往下看,這 5 個
- 卜瓦松分佈(Poisson Distribution)核心考點,描述固定時間區間內獨立事件發生次數的離散機率分佈。
- 描述性統計(Descriptive Statistics)期望值、變異數等統計量是理解各種分佈特性的基礎工具。
- 異常偵測(Anomaly Detection)卜瓦松過程的分析常用於偵測來電量、網路流量異常,是 AI 監控的基礎。
- 時間序列分析(Time Series Analysis)客服來電量是典型的時間序列資料,卜瓦松分佈是時間序列中計數事件的基礎模型。
- 資料前處理(Data Preprocessing)了解資料符合哪種分佈,是選擇正確前處理方法和模型的前提。