p 值 0.08、信賴區間含虛無值,結論是什麼?
某研究團隊以單樣本 t 檢定(one-sample t-test)檢驗「新行銷策略後的平均月銷售額是否與原本的 100 萬元不同」,顯著水準設定為 α=0.05。檢定結果顯示:p 值為 0.08,且 95%信賴區間為 [95 萬元, 108 萬元]。根據上述結果,下列敘述何者正確?
一個研究團隊想知道新行銷策略有沒有改變平均月銷售額(原本是 100 萬元)。他們設定顯著水準為 0.05,做了統計檢定。結果是:p 值算出來是 0.08,95% 信賴區間是 95 萬元到 108 萬元。
問你:根據這些檢定結果,下列四個說法哪一個是正確的?
一句話總結
p 值 0.08 大於 α=0.05,無法拒絕虛無假設;100 萬元落在 95% 信賴區間 [95, 108] 內,兩個判斷結果一致,正確結論是:因 100 萬元落在信賴區間內,無法拒絕虛無假設。
先感受問題:新策略真的有效嗎,還是只是隨機波動
鮮購電商的行銷部門推出新廣告策略,想知道這個策略有沒有真正提升月銷售額。原本的月銷售額平均是 100 萬元,新策略推行後觀測了一段時間。
統計學家芸芸幫他們做了單樣本 t 檢定,把「虛無假設」設為「銷售額沒有變化(還是 100 萬)」,希望能找到證據拒絕這個假設(即:有變化)。
結果出來了:p 值 0.08,信賴區間 [95 萬, 108 萬]。怎麼解讀?
判斷關鍵有兩個:一是 p 值跟顯著水準的比較,二是虛無假設的值有沒有落在信賴區間裡。這兩個方法得到的結論應該一致。
假設檢定的判斷邏輯,混淆後會犯哪些錯
- 把 p 值讀反:p 值是「在虛無假設成立的條件下,觀察到這個樣本結果或更極端的機率」。p 值越小代表越不可能是隨機,不是「越大越顯著」。
- 忘記顯著水準是門檻:α=0.05 是事前設定的拒絕門檻,p 值只有小於 α 才能拒絕虛無假設。0.08 > 0.05,沒有達到門檻,無法拒絕。
- 誤解信賴區間的意涵:95% 信賴區間 [95, 108] 的意思是「有 95% 的把握,真實平均值落在這個範圍內」。若虛無假設的值(100 萬)落在這個區間內,就代表這個值和樣本結果相容,無法被排除。
- 不知道 p 值法和信賴區間法結論一致:p > α 和「虛無假設值落在信賴區間內」兩個判斷在雙側檢定下永遠給出一致的結論,這不是巧合,而是數學上的等價關係。
- 誤以為信賴區間寬度只跟顯著水準有關:信賴區間寬度同時受樣本數和標準差影響,樣本數越大、標準差越小,區間越窄,與顯著水準設定無直接等比關係。
兩種方法,同一個結論:100 萬在範圍內,無法拒絕
方法一:比較 p 值和 α
0.08 > 0.05 → 沒有達到顯著水準 → 無法拒絕虛無假設
方法二:看信賴區間
虛無假設的值 = 100 萬
100 萬在 [95, 108] 之內 → 虛無假設值與資料相容 → 無法拒絕虛無假設
兩種方法得到相同結論,芸芸告訴行銷部門:「目前沒有足夠的統計證據說明新策略有顯著效果,但這不代表策略一定無效,只是樣本量或效果還不夠讓我們得出確定性結論。」
這就是選項 C 講的:因 100 萬元落在信賴區間內,無法拒絕虛無假設。
技術版:假設檢定的邏輯架構與信賴區間的深層意涵
假設檢定(Hypothesis Testing)是統計推論(Statistical Inference)的核心工具,讓我們用樣本資料對母體做出有根據的推斷,同時明確量化「我可能犯錯的機率」。
關鍵概念架構:
- 虛無假設 H₀:「沒有效果」「沒有差異」的保守假設。統計上,我們從假設 H₀ 成立開始,尋找反對它的證據。
- 對立假設 H₁:研究者希望證明的主張(本題:銷售額有變化)。
- p 值:H₀ 成立時,得到這個或更極端樣本結果的機率。p 值小 → 樣本結果在 H₀ 下很罕見 → 有理由懷疑 H₀。
- 顯著水準 α:事前設定的拒絕門檻,也是第一類型錯誤(H₀ 為真卻拒絕它)的容忍率。
信賴區間與 p 值的等價關係(雙側檢定):
- p < α ↔ 虛無假設值不在 (1-α) 信賴區間內
- p ≥ α ↔ 虛無假設值在 (1-α) 信賴區間內
信賴區間寬度的決定因素:顯著水準(α 越小,信賴區間越寬)、樣本數 n(n 越大,區間越窄)、樣本標準差 s(s 越大,區間越寬)。三者共同決定,不是只有顯著水準。
為什麼 iPAS 考這題:假設檢定是資料分析的基礎。判斷「統計顯著」還是「不顯著」直接影響業務決策,錯誤解讀 p 值是實務上最常見的統計錯誤之一,考試考的正是這個判斷能力。
為什麼其他選項是錯的
A因 p 值< 0.05,可拒絕虛無假設
p 值小於 0.05,所以達到顯著水準,可以拒絕虛無假設。
事實是 p 值 = 0.08,不是小於 0.05,而是大於 0.05。這個選項的前提陳述就是錯的。0.08 > 0.05,沒有達到顯著水準,不能拒絕虛無假設。
看到「p 值」和「0.05」就自動想到「顯著」,沒有仔細確認 0.08 跟 0.05 的大小關係的人。考試緊張時特別容易犯這種「看快了」的錯誤。
B若顯著水準改為 0.10,仍不顯著
就算把門檻放寬到 0.10,p 值仍然不顯著。
p 值 = 0.08,若顯著水準改為 α = 0.10,則 0.08 < 0.10,此時 p 值確實小於新的顯著水準,結論會變成「顯著」。所以這個說法是錯的,改變顯著水準會改變結論。
對「改變顯著水準會影響結論」這件事沒概念,以為 p 值結論是固定的人。α 是人為設定的門檻,調高門檻(α 從 0.05 改到 0.10),原本不顯著的結果可能變顯著。
D信賴區間寬度僅與顯著水準有關
信賴區間有多寬,只取決於你設的顯著水準(0.05 或 0.10)。
信賴區間寬度由三個因素共同決定:顯著水準 α(α 越小,區間越寬)、樣本數 n(n 越大,區間越窄)、樣本標準差 s(s 越大,區間越寬)。「僅與顯著水準有關」忽略了樣本數和標準差的影響,是不完整的說法。
記得「95% 信賴區間對應顯著水準 0.05」這個連結,就以為信賴區間寬度只跟顯著水準有關的人。這個連結描述的是置信度和顯著水準的對應,不是寬度的決定因素。
同個考點下次怎麼變形
p 值 = 0.03,α = 0.05,結論是什麼?
0.03 很小,應該是顯著的吧?
p 值 0.03 < α 0.05,達到顯著水準,可以拒絕虛無假設。同時,虛無假設的值應該不在 95% 信賴區間內(兩種方法結論一致)。
把樣本數從 30 增加到 300,信賴區間會怎麼變?
樣本數增加,估計應該更準,區間應該變窄?
正確。樣本數 n 增加,標準誤差(Standard Error = s / √n)縮小,信賴區間寬度縮小,估計更精確。這也代表相同樣本效果在大樣本下更容易達到統計顯著。
「統計上不顯著」是否等於「策略無效」?
沒有統計顯著,就代表策略沒用?
不等於。統計不顯著可能是:真的沒效果、樣本量不夠大(統計力不足)、效果存在但太小在當前樣本下偵測不到。「不顯著」的正確說法是「沒有足夠證據拒絕虛無假設」,不是「虛無假設為真」。
第一型錯誤和第二型錯誤各是什麼?
犯錯有兩種,哪種更嚴重?
第一型錯誤(Type I Error / 偽陽性):H₀ 為真卻拒絕它,機率為 α。第二型錯誤(Type II Error / 偽陰性):H₀ 為假卻沒拒絕它,機率為 β。α 越小,第一型錯誤越少,但第二型錯誤增加。哪種更嚴重取決於應用:醫療診斷寧可多報(降低第二型),法律寧可少報(降低第一型)。
信賴區間和 p 值,哪個提供更多資訊?
信賴區間和 p 值給的結論一樣,但哪個更有用?
信賴區間提供更多資訊。p 值只告訴你「有沒有顯著」(二元判斷),信賴區間還告訴你「效果大小的估計範圍」(例如銷售增加的可能幅度)。現代統計學和期刊越來越強調報告信賴區間而非只報 p 值。
想再往下看,這 5 個
- 假設檢定(Hypothesis Testing)用樣本資料判斷對母體的假設是否成立的統計推論框架,p 值和顯著水準是其核心概念。
- 常態分佈(Normal Distribution)t 檢定和信賴區間的推導建立在常態分佈假設上,理解常態分佈幫助掌握檢定的適用條件。
- ANOVA(變異數分析)比較三個或以上群組均值是否有顯著差異的統計檢定,是 t 檢定的多組擴展版本。
- 中央極限定理(Central Limit Theorem)說明樣本均值的抽樣分佈趨近常態的定理,是 t 檢定在大樣本下有效的數學基礎。
- 描述性統計(Descriptive Statistics)計算均值、標準差等統計量,是做假設檢定前的基礎資料摘要步驟。