iPAS AI 應用規劃師 中級 科目二 大數據處理分析與應用

比較兩條生產線的良率差異,用哪種統計檢定?

原題 38

一家製造廠評估新生產線推出後,產品良率是否較原生產線提升。工程師分別從兩條生產線各抽樣 100 件產品,原生產線良率為 95%,新生產線為 97%。若欲檢定兩條生產線良率的差異是否具有統計意義,下列哪一種方法最為合適?

白話

一家製造廠從兩條生產線各抽 100 件產品,原生產線良率 95%,新生產線良率 97%。想知道這 2% 的差異是真的有意義,還是只是隨機抽樣誤差。

問你:要檢定兩條生產線的良率(比例)差異是否具有統計意義,應該用哪種方法?

點選你的答案。

01 總結

一句話總結

比較兩個獨立樣本的「比例(良率)」差異是否顯著,要用雙比例 Z 檢定(Two-proportion Z-test),它專門設計來比較兩個樣本的二元比例(良率、通過率等),n 夠大時 Z 近似常態,是這個場景的標準方法

02 情境

先感受問題:2% 的良率差異是真的嗎?

「精捷製造」的品管工程師志豪面臨一個決策:公司花了大錢升級新生產線,廠長要他「用數字證明新生產線真的比較好」。

志豪抽了兩批樣本:原生產線 100 件,良品 95 件(95%);新生產線 100 件,良品 97 件(97%)。

廠長問:「這 2% 差異是真的提升,還是只是這批抽樣運氣好?」

問題的核心:良率是「比例」(proportion),不是平均值或計數。要比較兩個比例是否有顯著差異,需要針對「比例」設計的統計方法。

03 對照

用錯方法會得出什麼問題

  1. t 檢定是比較平均值,不是比例:雙樣本 t 檢定比較的是兩組的平均值(μ1 vs μ2),假設資料是連續型且近似常態。良率是 0/1 二元資料的比例,不適合 t 檢定。
  2. ANOVA 是比較三組以上的平均值:ANOVA 用於三個或更多組的平均值比較,這裡只有兩組且比較的是比例,根本不適用。
  3. 卡方檢定比的是「頻率分佈」而非「兩組比例的差」:卡方獨立性檢定可以用,但它測試的是兩個類別變數的「關聯性」,雙比例 Z 檢定更直接針對「兩個比例的差值」建立檢定統計量,更符合本題語境。
  4. 只看點估計不做假設檢定:97% 確實比 95% 高,但差 2% 在統計上可能不顯著(p > 0.05),只憑樣本比例直接下結論忽略了抽樣誤差。
  5. 混用配對和獨立樣本方法:兩條生產線是獨立抽樣,若誤用配對檢定(Paired t-test),會高估差異的顯著性。
04 解法

雙比例 Z 檢定:直接針對兩個比例的差值建立檢定統計量

志豪使用雙比例 Z 檢定,設定:

  • 虛無假設(H₀):p₁ = p₂(兩條生產線良率相同)
  • 對立假設(H₁):p₁ ≠ p₂(兩條生產線良率不同,雙尾)

計算結果:Z 統計量約 0.82,對應 p-value ≈ 0.41 > 0.05。

結論:雖然樣本良率差了 2%,但在統計上不顯著(p > 0.05),志豪需要更多樣本才能確認差異是真實的。這個結果讓廠長看到,光靠 100 件抽樣不夠有力。

這就是選項 B 講的:雙比例 Z 檢定(Two-proportion Z-test)

技術版:雙比例 Z 檢定的概念位置

雙比例 Z 檢定的適用條件:兩個獨立隨機樣本、每組樣本量夠大(np ≥ 5 且 n(1-p) ≥ 5)、資料為二元結果(良品/不良品,成功/失敗)。

Z 統計量公式:

Z = (p̂₁ - p̂₂) / √(p̂(1-p̂)(1/n₁ + 1/n₂))

其中 p̂ 是合併比例(Pooled Proportion):p̂ = (x₁ + x₂) / (n₁ + n₂) = (95+97) / (100+100) = 0.96

本題代入:Z = (0.97-0.95) / √(0.96×0.04×(1/100+1/100)) ≈ 0.02 / 0.0277 ≈ 0.72

對應雙尾 p-value ≈ 0.47,結論為不顯著差異。

雙比例 Z 檢定和卡方檢定(2×2 列聯表)在數學上等價:Z² = χ²,兩者給出相同的 p-value。差異在語境:Z 檢定直接呈現比例差的方向(正負),卡方只呈現是否有關聯。

05 陷阱

為什麼其他選項是錯的

A雙樣本平均數 t 檢定(Two-sample t-test)

字面在說什麼

比較兩組的平均值是否有顯著差異。

為什麼不對

t 檢定的目標是比較「平均值」(連續型變數),例如兩組的平均重量、平均分數。良率是「比例」(95% 和 97%),不是兩組量測值的平均。雖然比例在數學上也可以算「平均」,但 t 檢定的假設(常態殘差)對二元資料不成立,且這不是最直接的工具。

誰會選錯

看到「比較兩組」就直覺選 t 檢定,沒有區分「比較兩組的平均值」和「比較兩組的比例」的差異。

C卡方檢定(Chi-square test)

字面在說什麼

用卡方統計量檢定兩個類別變數之間是否有關聯(獨立性檢定)。

為什麼不對

卡方獨立性檢定可以用 2×2 列聯表分析「生產線類型」和「良率」的關聯,技術上也能得到相似結論。但本題問的是「兩個比例的差異是否顯著」,雙比例 Z 檢定更直接描述「p₁ - p₂」的顯著性,語境更貼切,是「最為合適」的選項。

誰會選錯

知道卡方可以比較頻率分佈,認為「良率 = 類別頻率」所以卡方適合,但沒注意到雙比例 Z 檢定和本題場景更直接對應。

D變異數分析(ANOVA)

字面在說什麼

比較三個或更多組的平均值是否有顯著差異。

為什麼不對

ANOVA 用於三組以上(如比較 3 條生產線的良率),本題只有兩組。即使硬用 ANOVA 比較兩組,它和 t 檢定是等價的(F = t²),但 ANOVA 的前提是比較「平均值」,同樣不是比較「比例」的最佳選擇。

誰會選錯

把 ANOVA 當成「比較任何兩組差異」的萬用工具,不清楚它的適用場景(三組以上、連續型因變數)。

06 變形

同個考點下次怎麼變形

變形 1

如果改成比較「三條」生產線的良率,應該用哪種方法?

直覺

三組比較和兩組比較用不同方法嗎?

答案

三組以上的比例比較用卡方獨立性檢定(2×k 列聯表),或對比例做多重比較。如果是平均值的三組比較則用 ANOVA(ANOVA 再搭配事後檢定如 Tukey HSD 找出哪兩組有差異)。

變形 2

雙比例 Z 檢定的前提條件是什麼?n 多大才夠?

直覺

n=100 夠嗎?什麼時候才能用這個方法?

答案

條件:兩個獨立樣本,各自的 np ≥ 5 且 n(1-p) ≥ 5。本題:100×0.95=95 ≥ 5,100×0.05=5 ≥ 5,剛好通過。n 越大,Z 近似越準確。若樣本量不足,應改用費雪精確檢定(Fisher's Exact Test)。

變形 3

p-value = 0.47 代表什麼?能說「兩條生產線良率相同」嗎?

直覺

p > 0.05 就是「接受虛無假設」嗎?

答案

不能。p > 0.05 只能說「沒有足夠證據拒絕虛無假設」,而非「虛無假設為真」。正確解讀是:在現有樣本量下,2% 的差異尚未達到統計顯著水準,需要更多樣本或更大的效應量才能下結論。

變形 4

要讓這個 2% 差異達到顯著(α=0.05),至少需要多大的樣本量?

直覺

現在 n=100 不夠,需要多少才能「看出」2% 差異?

答案

樣本量計算(Power Analysis):要在 α=0.05、統計力量 80% 的前提下偵測 2% 的比例差(95% vs 97%),大約需要每組 1,600-2,000 個樣本。這說明 2% 的差異需要很大的樣本才能可靠偵測。

變形 5

如果兩條生產線的樣本量不同(原生產線 200 件,新生產線 100 件),雙比例 Z 檢定還能用嗎?

直覺

樣本量不一樣,公式還能套嗎?

答案

可以。雙比例 Z 檢定支援不等樣本量,Z 統計量公式中的 (1/n₁ + 1/n₂) 項自動處理不等樣本量的情況。樣本量不同只影響檢定力(較小的組貢獻更大的標準誤),不影響方法的適用性。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 114 年第二梯次 iPAS AI 應用規劃師 中級 科目二 大數據處理分析與應用 第 38 題

查看官方原文 PDF