iPAS AI 應用規劃師 中級 科目二 大數據處理分析與應用

p 值 0.08、信賴區間含虛無值,結論是什麼?

原題 23

某研究團隊以單樣本 t 檢定(one-sample t-test)檢驗「新行銷策略後的平均月銷售額是否與原本的 100 萬元不同」,顯著水準設定為 α=0.05。檢定結果顯示:p 值為 0.08,且 95%信賴區間為 [95 萬元, 108 萬元]。根據上述結果,下列敘述何者正確?

白話

一個研究團隊想知道新行銷策略有沒有改變平均月銷售額(原本是 100 萬元)。他們設定顯著水準為 0.05,做了統計檢定。結果是:p 值算出來是 0.08,95% 信賴區間是 95 萬元到 108 萬元。

問你:根據這些檢定結果,下列四個說法哪一個是正確的?

點選你的答案。

01 總結

一句話總結

p 值 0.08 大於 α=0.05,無法拒絕虛無假設;100 萬元落在 95% 信賴區間 [95, 108] 內,兩個判斷結果一致,正確結論是:因 100 萬元落在信賴區間內,無法拒絕虛無假設

02 情境

先感受問題:新策略真的有效嗎,還是只是隨機波動

鮮購電商的行銷部門推出新廣告策略,想知道這個策略有沒有真正提升月銷售額。原本的月銷售額平均是 100 萬元,新策略推行後觀測了一段時間。

統計學家芸芸幫他們做了單樣本 t 檢定,把「虛無假設」設為「銷售額沒有變化(還是 100 萬)」,希望能找到證據拒絕這個假設(即:有變化)。

結果出來了:p 值 0.08,信賴區間 [95 萬, 108 萬]。怎麼解讀?

判斷關鍵有兩個:一是 p 值跟顯著水準的比較,二是虛無假設的值有沒有落在信賴區間裡。這兩個方法得到的結論應該一致。

03 對照

假設檢定的判斷邏輯,混淆後會犯哪些錯

  1. 把 p 值讀反:p 值是「在虛無假設成立的條件下,觀察到這個樣本結果或更極端的機率」。p 值越小代表越不可能是隨機,不是「越大越顯著」。
  2. 忘記顯著水準是門檻:α=0.05 是事前設定的拒絕門檻,p 值只有小於 α 才能拒絕虛無假設。0.08 > 0.05,沒有達到門檻,無法拒絕。
  3. 誤解信賴區間的意涵:95% 信賴區間 [95, 108] 的意思是「有 95% 的把握,真實平均值落在這個範圍內」。若虛無假設的值(100 萬)落在這個區間內,就代表這個值和樣本結果相容,無法被排除。
  4. 不知道 p 值法和信賴區間法結論一致:p > α 和「虛無假設值落在信賴區間內」兩個判斷在雙側檢定下永遠給出一致的結論,這不是巧合,而是數學上的等價關係。
  5. 誤以為信賴區間寬度只跟顯著水準有關:信賴區間寬度同時受樣本數和標準差影響,樣本數越大、標準差越小,區間越窄,與顯著水準設定無直接等比關係。
04 解法

兩種方法,同一個結論:100 萬在範圍內,無法拒絕

方法一:比較 p 值和 α

p 值 = 0.08,α = 0.05
0.08 > 0.05 → 沒有達到顯著水準 → 無法拒絕虛無假設

方法二:看信賴區間

95% 信賴區間 = [95 萬, 108 萬]
虛無假設的值 = 100 萬
100 萬在 [95, 108] 之內 → 虛無假設值與資料相容 → 無法拒絕虛無假設

兩種方法得到相同結論,芸芸告訴行銷部門:「目前沒有足夠的統計證據說明新策略有顯著效果,但這不代表策略一定無效,只是樣本量或效果還不夠讓我們得出確定性結論。」

這就是選項 C 講的:因 100 萬元落在信賴區間內,無法拒絕虛無假設

技術版:假設檢定的邏輯架構與信賴區間的深層意涵

假設檢定(Hypothesis Testing)是統計推論(Statistical Inference)的核心工具,讓我們用樣本資料對母體做出有根據的推斷,同時明確量化「我可能犯錯的機率」。

關鍵概念架構:

  • 虛無假設 H₀:「沒有效果」「沒有差異」的保守假設。統計上,我們從假設 H₀ 成立開始,尋找反對它的證據。
  • 對立假設 H₁:研究者希望證明的主張(本題:銷售額有變化)。
  • p 值:H₀ 成立時,得到這個或更極端樣本結果的機率。p 值小 → 樣本結果在 H₀ 下很罕見 → 有理由懷疑 H₀。
  • 顯著水準 α:事前設定的拒絕門檻,也是第一類型錯誤(H₀ 為真卻拒絕它)的容忍率。

信賴區間與 p 值的等價關係(雙側檢定):

  • p < α ↔ 虛無假設值不在 (1-α) 信賴區間內
  • p ≥ α ↔ 虛無假設值在 (1-α) 信賴區間內

信賴區間寬度的決定因素:顯著水準(α 越小,信賴區間越寬)、樣本數 n(n 越大,區間越窄)、樣本標準差 s(s 越大,區間越寬)。三者共同決定,不是只有顯著水準。

為什麼 iPAS 考這題:假設檢定是資料分析的基礎。判斷「統計顯著」還是「不顯著」直接影響業務決策,錯誤解讀 p 值是實務上最常見的統計錯誤之一,考試考的正是這個判斷能力。

05 陷阱

為什麼其他選項是錯的

A因 p 值< 0.05,可拒絕虛無假設

字面在說什麼

p 值小於 0.05,所以達到顯著水準,可以拒絕虛無假設。

為什麼不對

事實是 p 值 = 0.08,不是小於 0.05,而是大於 0.05。這個選項的前提陳述就是錯的。0.08 > 0.05,沒有達到顯著水準,不能拒絕虛無假設。

誰會選錯

看到「p 值」和「0.05」就自動想到「顯著」,沒有仔細確認 0.08 跟 0.05 的大小關係的人。考試緊張時特別容易犯這種「看快了」的錯誤。

B若顯著水準改為 0.10,仍不顯著

字面在說什麼

就算把門檻放寬到 0.10,p 值仍然不顯著。

為什麼不對

p 值 = 0.08,若顯著水準改為 α = 0.10,則 0.08 < 0.10,此時 p 值確實小於新的顯著水準,結論會變成「顯著」。所以這個說法是錯的,改變顯著水準會改變結論。

誰會選錯

對「改變顯著水準會影響結論」這件事沒概念,以為 p 值結論是固定的人。α 是人為設定的門檻,調高門檻(α 從 0.05 改到 0.10),原本不顯著的結果可能變顯著。

D信賴區間寬度僅與顯著水準有關

字面在說什麼

信賴區間有多寬,只取決於你設的顯著水準(0.05 或 0.10)。

為什麼不對

信賴區間寬度由三個因素共同決定:顯著水準 α(α 越小,區間越寬)、樣本數 n(n 越大,區間越窄)、樣本標準差 s(s 越大,區間越寬)。「僅與顯著水準有關」忽略了樣本數和標準差的影響,是不完整的說法。

誰會選錯

記得「95% 信賴區間對應顯著水準 0.05」這個連結,就以為信賴區間寬度只跟顯著水準有關的人。這個連結描述的是置信度和顯著水準的對應,不是寬度的決定因素。

06 變形

同個考點下次怎麼變形

變形 1

p 值 = 0.03,α = 0.05,結論是什麼?

直覺

0.03 很小,應該是顯著的吧?

答案

p 值 0.03 < α 0.05,達到顯著水準,可以拒絕虛無假設。同時,虛無假設的值應該不在 95% 信賴區間內(兩種方法結論一致)。

變形 2

把樣本數從 30 增加到 300,信賴區間會怎麼變?

直覺

樣本數增加,估計應該更準,區間應該變窄?

答案

正確。樣本數 n 增加,標準誤差(Standard Error = s / √n)縮小,信賴區間寬度縮小,估計更精確。這也代表相同樣本效果在大樣本下更容易達到統計顯著。

變形 3

「統計上不顯著」是否等於「策略無效」?

直覺

沒有統計顯著,就代表策略沒用?

答案

不等於。統計不顯著可能是:真的沒效果、樣本量不夠大(統計力不足)、效果存在但太小在當前樣本下偵測不到。「不顯著」的正確說法是「沒有足夠證據拒絕虛無假設」,不是「虛無假設為真」。

變形 4

第一型錯誤和第二型錯誤各是什麼?

直覺

犯錯有兩種,哪種更嚴重?

答案

第一型錯誤(Type I Error / 偽陽性):H₀ 為真卻拒絕它,機率為 α。第二型錯誤(Type II Error / 偽陰性):H₀ 為假卻沒拒絕它,機率為 β。α 越小,第一型錯誤越少,但第二型錯誤增加。哪種更嚴重取決於應用:醫療診斷寧可多報(降低第二型),法律寧可少報(降低第一型)。

變形 5

信賴區間和 p 值,哪個提供更多資訊?

直覺

信賴區間和 p 值給的結論一樣,但哪個更有用?

答案

信賴區間提供更多資訊。p 值只告訴你「有沒有顯著」(二元判斷),信賴區間還告訴你「效果大小的估計範圍」(例如銷售增加的可能幅度)。現代統計學和期刊越來越強調報告信賴區間而非只報 p 值。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 114 年第二梯次 iPAS AI 應用規劃師 中級 科目二 大數據處理分析與應用 第 23 題

查看官方原文 PDF