iPAS AI 應用規劃師中級　科目二　大數據處理分析與應用

p 值 0.08、信賴區間含虛無值，結論是什麼？

原題 23

某研究團隊以單樣本 t 檢定（one-sample t-test）檢驗「新行銷策略後的平均月銷售額是否與原本的 100 萬元不同」，顯著水準設定為 α=0.05。檢定結果顯示：p 值為 0.08，且 95%信賴區間為 [95 萬元, 108 萬元]。根據上述結果，下列敘述何者正確？

白話

一個研究團隊想知道新行銷策略有沒有改變平均月銷售額（原本是 100 萬元）。他們設定顯著水準為 0.05，做了統計檢定。結果是：p 值算出來是 0.08，95% 信賴區間是 95 萬元到 108 萬元。

問你：根據這些檢定結果，下列四個說法哪一個是正確的？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

p 值 0.08 大於 α=0.05，無法拒絕虛無假設；100 萬元落在 95% 信賴區間 [95, 108] 內，兩個判斷結果一致，正確結論是：因 100 萬元落在信賴區間內，無法拒絕虛無假設。

02　情境

先感受問題：新策略真的有效嗎，還是只是隨機波動

鮮購電商的行銷部門推出新廣告策略，想知道這個策略有沒有真正提升月銷售額。原本的月銷售額平均是 100 萬元，新策略推行後觀測了一段時間。

統計學家芸芸幫他們做了單樣本 t 檢定，把「虛無假設」設為「銷售額沒有變化（還是 100 萬）」，希望能找到證據拒絕這個假設（即：有變化）。

結果出來了：p 值 0.08，信賴區間 [95 萬, 108 萬]。怎麼解讀？

判斷關鍵有兩個：一是 p 值跟顯著水準的比較，二是虛無假設的值有沒有落在信賴區間裡。這兩個方法得到的結論應該一致。

03　對照

假設檢定的判斷邏輯，混淆後會犯哪些錯

把 p 值讀反：p 值是「在虛無假設成立的條件下，觀察到這個樣本結果或更極端的機率」。p 值越小代表越不可能是隨機，不是「越大越顯著」。
忘記顯著水準是門檻：α=0.05 是事前設定的拒絕門檻，p 值只有小於 α 才能拒絕虛無假設。0.08 > 0.05，沒有達到門檻，無法拒絕。
誤解信賴區間的意涵：95% 信賴區間 [95, 108] 的意思是「有 95% 的把握，真實平均值落在這個範圍內」。若虛無假設的值（100 萬）落在這個區間內，就代表這個值和樣本結果相容，無法被排除。
不知道 p 值法和信賴區間法結論一致：p > α 和「虛無假設值落在信賴區間內」兩個判斷在雙側檢定下永遠給出一致的結論，這不是巧合，而是數學上的等價關係。
誤以為信賴區間寬度只跟顯著水準有關：信賴區間寬度同時受樣本數和標準差影響，樣本數越大、標準差越小，區間越窄，與顯著水準設定無直接等比關係。

04　解法

兩種方法，同一個結論：100 萬在範圍內，無法拒絕

方法一：比較 p 值和 α

p 值 = 0.08，α = 0.05
0.08 > 0.05 → 沒有達到顯著水準 → 無法拒絕虛無假設

方法二：看信賴區間

95% 信賴區間 = [95 萬, 108 萬]
虛無假設的值 = 100 萬
100 萬在 [95, 108] 之內 → 虛無假設值與資料相容 → 無法拒絕虛無假設

兩種方法得到相同結論，芸芸告訴行銷部門：「目前沒有足夠的統計證據說明新策略有顯著效果，但這不代表策略一定無效，只是樣本量或效果還不夠讓我們得出確定性結論。」

這就是選項 C 講的：因 100 萬元落在信賴區間內，無法拒絕虛無假設。

技術版：假設檢定的邏輯架構與信賴區間的深層意涵

假設檢定（Hypothesis Testing）是統計推論（Statistical Inference）的核心工具，讓我們用樣本資料對母體做出有根據的推斷，同時明確量化「我可能犯錯的機率」。

關鍵概念架構：

虛無假設 H₀：「沒有效果」「沒有差異」的保守假設。統計上，我們從假設 H₀ 成立開始，尋找反對它的證據。
對立假設 H₁：研究者希望證明的主張（本題：銷售額有變化）。
p 值：H₀ 成立時，得到這個或更極端樣本結果的機率。p 值小 → 樣本結果在 H₀ 下很罕見 → 有理由懷疑 H₀。
顯著水準 α：事前設定的拒絕門檻，也是第一類型錯誤（H₀ 為真卻拒絕它）的容忍率。

信賴區間與 p 值的等價關係（雙側檢定）：

p < α ↔ 虛無假設值不在 (1-α) 信賴區間內
p ≥ α ↔ 虛無假設值在 (1-α) 信賴區間內

信賴區間寬度的決定因素：顯著水準（α 越小，信賴區間越寬）、樣本數 n（n 越大，區間越窄）、樣本標準差 s（s 越大，區間越寬）。三者共同決定，不是只有顯著水準。

為什麼 iPAS 考這題：假設檢定是資料分析的基礎。判斷「統計顯著」還是「不顯著」直接影響業務決策，錯誤解讀 p 值是實務上最常見的統計錯誤之一，考試考的正是這個判斷能力。

05　陷阱

為什麼其他選項是錯的

A因 p 值＜ 0.05，可拒絕虛無假設

字面在說什麼

p 值小於 0.05，所以達到顯著水準，可以拒絕虛無假設。

為什麼不對

事實是 p 值 = 0.08，不是小於 0.05，而是大於 0.05。這個選項的前提陳述就是錯的。0.08 > 0.05，沒有達到顯著水準，不能拒絕虛無假設。

誰會選錯

看到「p 值」和「0.05」就自動想到「顯著」，沒有仔細確認 0.08 跟 0.05 的大小關係的人。考試緊張時特別容易犯這種「看快了」的錯誤。

B若顯著水準改為 0.10，仍不顯著

字面在說什麼

就算把門檻放寬到 0.10，p 值仍然不顯著。

為什麼不對

p 值 = 0.08，若顯著水準改為 α = 0.10，則 0.08 < 0.10，此時 p 值確實小於新的顯著水準，結論會變成「顯著」。所以這個說法是錯的，改變顯著水準會改變結論。

誰會選錯

對「改變顯著水準會影響結論」這件事沒概念，以為 p 值結論是固定的人。α 是人為設定的門檻，調高門檻（α 從 0.05 改到 0.10），原本不顯著的結果可能變顯著。

D信賴區間寬度僅與顯著水準有關

字面在說什麼

信賴區間有多寬，只取決於你設的顯著水準（0.05 或 0.10）。

為什麼不對

信賴區間寬度由三個因素共同決定：顯著水準 α（α 越小，區間越寬）、樣本數 n（n 越大，區間越窄）、樣本標準差 s（s 越大，區間越寬）。「僅與顯著水準有關」忽略了樣本數和標準差的影響，是不完整的說法。

誰會選錯

記得「95% 信賴區間對應顯著水準 0.05」這個連結，就以為信賴區間寬度只跟顯著水準有關的人。這個連結描述的是置信度和顯著水準的對應，不是寬度的決定因素。

06　變形

同個考點下次怎麼變形

變形 1

p 值 = 0.03，α = 0.05，結論是什麼？

直覺

0.03 很小，應該是顯著的吧？

答案

p 值 0.03 < α 0.05，達到顯著水準，可以拒絕虛無假設。同時，虛無假設的值應該不在 95% 信賴區間內（兩種方法結論一致）。

變形 2

把樣本數從 30 增加到 300，信賴區間會怎麼變？

直覺

樣本數增加，估計應該更準，區間應該變窄？

答案

正確。樣本數 n 增加，標準誤差（Standard Error = s / √n）縮小，信賴區間寬度縮小，估計更精確。這也代表相同樣本效果在大樣本下更容易達到統計顯著。

變形 3

「統計上不顯著」是否等於「策略無效」？

直覺

沒有統計顯著，就代表策略沒用？

答案

不等於。統計不顯著可能是：真的沒效果、樣本量不夠大（統計力不足）、效果存在但太小在當前樣本下偵測不到。「不顯著」的正確說法是「沒有足夠證據拒絕虛無假設」，不是「虛無假設為真」。

變形 4

第一型錯誤和第二型錯誤各是什麼？

直覺

犯錯有兩種，哪種更嚴重？

答案

第一型錯誤（Type I Error / 偽陽性）：H₀ 為真卻拒絕它，機率為 α。第二型錯誤（Type II Error / 偽陰性）：H₀ 為假卻沒拒絕它，機率為 β。α 越小，第一型錯誤越少，但第二型錯誤增加。哪種更嚴重取決於應用：醫療診斷寧可多報（降低第二型），法律寧可少報（降低第一型）。

變形 5

信賴區間和 p 值，哪個提供更多資訊？

直覺

信賴區間和 p 值給的結論一樣，但哪個更有用？

答案

信賴區間提供更多資訊。p 值只告訴你「有沒有顯著」（二元判斷），信賴區間還告訴你「效果大小的估計範圍」（例如銷售增加的可能幅度）。現代統計學和期刊越來越強調報告信賴區間而非只報 p 值。

07　延伸

想再往下看，這 5 個

假設檢定（Hypothesis Testing）用樣本資料判斷對母體的假設是否成立的統計推論框架，p 值和顯著水準是其核心概念。
常態分佈（Normal Distribution）t 檢定和信賴區間的推導建立在常態分佈假設上，理解常態分佈幫助掌握檢定的適用條件。
ANOVA（變異數分析）比較三個或以上群組均值是否有顯著差異的統計檢定，是 t 檢定的多組擴展版本。
中央極限定理（Central Limit Theorem）說明樣本均值的抽樣分佈趨近常態的定理，是 t 檢定在大樣本下有效的數學基礎。
描述性統計（Descriptive Statistics）計算均值、標準差等統計量，是做假設檢定前的基礎資料摘要步驟。