比較兩條生產線的良率差異,用哪種統計檢定?
一家製造廠評估新生產線推出後,產品良率是否較原生產線提升。工程師分別從兩條生產線各抽樣 100 件產品,原生產線良率為 95%,新生產線為 97%。若欲檢定兩條生產線良率的差異是否具有統計意義,下列哪一種方法最為合適?
一家製造廠從兩條生產線各抽 100 件產品,原生產線良率 95%,新生產線良率 97%。想知道這 2% 的差異是真的有意義,還是只是隨機抽樣誤差。
問你:要檢定兩條生產線的良率(比例)差異是否具有統計意義,應該用哪種方法?
一句話總結
比較兩個獨立樣本的「比例(良率)」差異是否顯著,要用雙比例 Z 檢定(Two-proportion Z-test),它專門設計來比較兩個樣本的二元比例(良率、通過率等),n 夠大時 Z 近似常態,是這個場景的標準方法。
先感受問題:2% 的良率差異是真的嗎?
「精捷製造」的品管工程師志豪面臨一個決策:公司花了大錢升級新生產線,廠長要他「用數字證明新生產線真的比較好」。
志豪抽了兩批樣本:原生產線 100 件,良品 95 件(95%);新生產線 100 件,良品 97 件(97%)。
廠長問:「這 2% 差異是真的提升,還是只是這批抽樣運氣好?」
問題的核心:良率是「比例」(proportion),不是平均值或計數。要比較兩個比例是否有顯著差異,需要針對「比例」設計的統計方法。
用錯方法會得出什麼問題
- t 檢定是比較平均值,不是比例:雙樣本 t 檢定比較的是兩組的平均值(μ1 vs μ2),假設資料是連續型且近似常態。良率是 0/1 二元資料的比例,不適合 t 檢定。
- ANOVA 是比較三組以上的平均值:ANOVA 用於三個或更多組的平均值比較,這裡只有兩組且比較的是比例,根本不適用。
- 卡方檢定比的是「頻率分佈」而非「兩組比例的差」:卡方獨立性檢定可以用,但它測試的是兩個類別變數的「關聯性」,雙比例 Z 檢定更直接針對「兩個比例的差值」建立檢定統計量,更符合本題語境。
- 只看點估計不做假設檢定:97% 確實比 95% 高,但差 2% 在統計上可能不顯著(p > 0.05),只憑樣本比例直接下結論忽略了抽樣誤差。
- 混用配對和獨立樣本方法:兩條生產線是獨立抽樣,若誤用配對檢定(Paired t-test),會高估差異的顯著性。
雙比例 Z 檢定:直接針對兩個比例的差值建立檢定統計量
志豪使用雙比例 Z 檢定,設定:
- 虛無假設(H₀):p₁ = p₂(兩條生產線良率相同)
- 對立假設(H₁):p₁ ≠ p₂(兩條生產線良率不同,雙尾)
計算結果:Z 統計量約 0.82,對應 p-value ≈ 0.41 > 0.05。
結論:雖然樣本良率差了 2%,但在統計上不顯著(p > 0.05),志豪需要更多樣本才能確認差異是真實的。這個結果讓廠長看到,光靠 100 件抽樣不夠有力。
這就是選項 B 講的:雙比例 Z 檢定(Two-proportion Z-test)。
技術版:雙比例 Z 檢定的概念位置
雙比例 Z 檢定的適用條件:兩個獨立隨機樣本、每組樣本量夠大(np ≥ 5 且 n(1-p) ≥ 5)、資料為二元結果(良品/不良品,成功/失敗)。
Z 統計量公式:
Z = (p̂₁ - p̂₂) / √(p̂(1-p̂)(1/n₁ + 1/n₂))
其中 p̂ 是合併比例(Pooled Proportion):p̂ = (x₁ + x₂) / (n₁ + n₂) = (95+97) / (100+100) = 0.96
本題代入:Z = (0.97-0.95) / √(0.96×0.04×(1/100+1/100)) ≈ 0.02 / 0.0277 ≈ 0.72
對應雙尾 p-value ≈ 0.47,結論為不顯著差異。
雙比例 Z 檢定和卡方檢定(2×2 列聯表)在數學上等價:Z² = χ²,兩者給出相同的 p-value。差異在語境:Z 檢定直接呈現比例差的方向(正負),卡方只呈現是否有關聯。
為什麼其他選項是錯的
A雙樣本平均數 t 檢定(Two-sample t-test)
比較兩組的平均值是否有顯著差異。
t 檢定的目標是比較「平均值」(連續型變數),例如兩組的平均重量、平均分數。良率是「比例」(95% 和 97%),不是兩組量測值的平均。雖然比例在數學上也可以算「平均」,但 t 檢定的假設(常態殘差)對二元資料不成立,且這不是最直接的工具。
看到「比較兩組」就直覺選 t 檢定,沒有區分「比較兩組的平均值」和「比較兩組的比例」的差異。
C卡方檢定(Chi-square test)
用卡方統計量檢定兩個類別變數之間是否有關聯(獨立性檢定)。
卡方獨立性檢定可以用 2×2 列聯表分析「生產線類型」和「良率」的關聯,技術上也能得到相似結論。但本題問的是「兩個比例的差異是否顯著」,雙比例 Z 檢定更直接描述「p₁ - p₂」的顯著性,語境更貼切,是「最為合適」的選項。
知道卡方可以比較頻率分佈,認為「良率 = 類別頻率」所以卡方適合,但沒注意到雙比例 Z 檢定和本題場景更直接對應。
D變異數分析(ANOVA)
比較三個或更多組的平均值是否有顯著差異。
ANOVA 用於三組以上(如比較 3 條生產線的良率),本題只有兩組。即使硬用 ANOVA 比較兩組,它和 t 檢定是等價的(F = t²),但 ANOVA 的前提是比較「平均值」,同樣不是比較「比例」的最佳選擇。
把 ANOVA 當成「比較任何兩組差異」的萬用工具,不清楚它的適用場景(三組以上、連續型因變數)。
同個考點下次怎麼變形
如果改成比較「三條」生產線的良率,應該用哪種方法?
三組比較和兩組比較用不同方法嗎?
三組以上的比例比較用卡方獨立性檢定(2×k 列聯表),或對比例做多重比較。如果是平均值的三組比較則用 ANOVA(ANOVA 再搭配事後檢定如 Tukey HSD 找出哪兩組有差異)。
雙比例 Z 檢定的前提條件是什麼?n 多大才夠?
n=100 夠嗎?什麼時候才能用這個方法?
條件:兩個獨立樣本,各自的 np ≥ 5 且 n(1-p) ≥ 5。本題:100×0.95=95 ≥ 5,100×0.05=5 ≥ 5,剛好通過。n 越大,Z 近似越準確。若樣本量不足,應改用費雪精確檢定(Fisher's Exact Test)。
p-value = 0.47 代表什麼?能說「兩條生產線良率相同」嗎?
p > 0.05 就是「接受虛無假設」嗎?
不能。p > 0.05 只能說「沒有足夠證據拒絕虛無假設」,而非「虛無假設為真」。正確解讀是:在現有樣本量下,2% 的差異尚未達到統計顯著水準,需要更多樣本或更大的效應量才能下結論。
要讓這個 2% 差異達到顯著(α=0.05),至少需要多大的樣本量?
現在 n=100 不夠,需要多少才能「看出」2% 差異?
樣本量計算(Power Analysis):要在 α=0.05、統計力量 80% 的前提下偵測 2% 的比例差(95% vs 97%),大約需要每組 1,600-2,000 個樣本。這說明 2% 的差異需要很大的樣本才能可靠偵測。
如果兩條生產線的樣本量不同(原生產線 200 件,新生產線 100 件),雙比例 Z 檢定還能用嗎?
樣本量不一樣,公式還能套嗎?
可以。雙比例 Z 檢定支援不等樣本量,Z 統計量公式中的 (1/n₁ + 1/n₂) 項自動處理不等樣本量的情況。樣本量不同只影響檢定力(較小的組貢獻更大的標準誤),不影響方法的適用性。
想再往下看,這 5 個
- 假設檢定(Hypothesis Testing)雙比例 Z 檢定是假設檢定的具體應用,遵循設定虛無假設、計算統計量、判斷 p-value 的標準流程。
- ANOVA(變異數分析)適用於三組以上均值比較,是 t 檢定的延伸;與雙比例 Z 檢定適用場景不同。
- 卡方檢定(Chi-Square Test)可用 2×2 列聯表檢定兩個類別變數的關聯,與雙比例 Z 檢定在數學上等價(Z²=χ²)。
- A/B 測試(A/B Testing)比較兩個版本(如新舊生產線、新舊網頁設計)效果差異的實驗設計,雙比例 Z 檢定是其統計核心。
- 常態分佈(Normal Distribution)雙比例 Z 檢定的理論基礎:當 n 夠大時,比例的抽樣分佈近似常態,使 Z 統計量可用。