iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論

敘述性統計指標哪個說法正確?

原題 16

關於敘述性統計指標,下列敘述何者最為正確?

白話

題目針對敘述性統計中的幾個指標——中位數(Median)、標準差(Standard Deviation)、百分位數(Percentile)、平均值(Mean)——各給出一句描述,其中只有一句是正確的。

問你:關於敘述性統計指標,下列哪一個描述最為正確?

點選你的答案。

01 總結

一句話總結

百分位數(Percentile)的用途是衡量某個值在整體分布中的相對位置,例如「你的身高在全班排在第 90 百分位」代表你比 90% 的人高。其他三個選項的描述都說反了。

02 情境

先感受問題:「平均薪資 6 萬」,你相信嗎?

「全台精英人力銀行」公布了某職類的薪資統計報告:平均月薪 6 萬元。新鮮人林佳蓉看完卻更困惑:「為什麼我問到的人大部分都說 3.5 萬到 4 萬?」

問題就出在統計指標的選擇。這個職類有少數高薪職缺(月薪 30 萬)和大量一般職缺(月薪 3.5 萬),平均值被少數極端高薪拉高,嚴重失真。

如果報告改用中位數:排在正中間那個人的薪資大概 3.8 萬,更能反映「大多數人的真實狀況」。如果用百分位數:能告訴林佳蓉「你的期望薪資落在第幾百分位,有多少人比你高、比你低」。

統計指標不同,讀出來的故事完全不同。

03 對照

只用平均值,分析師踩過的坑

「全台精英人力銀行」的資料分析師過去只報平均值,結果每次報告都引發質疑:

  1. 被高薪離群值拉偏:少數 30 萬月薪的職缺讓平均值跳到 6 萬,但 80% 的人根本拿不到這個數字
  2. 看不出分布形狀:平均值 6 萬可能是「大家都拿 5 到 7 萬」,也可能是「一半 3 萬一半 9 萬」,完全不知道
  3. 無法比較相對位置:求職者想知道「我拿 4.5 萬算高還是低」,平均值無法回答這個問題
  4. 偏態分布失真:薪資分布是右偏(少數超高薪),平均值不在「大多數人」的位置上
  5. 使用者信任崩潰:每次公布平均薪資,下面留言就罵「哪裡有這種薪資,跟我現實完全不同」

要真正理解一份資料,需要多個統計指標搭配使用。

04 解法

百分位數怎麼解決「我在哪裡」的問題

林佳蓉想知道「月薪 4.5 萬在這個職類算高嗎」,百分位數能直接回答。

百分位數是什麼:把所有數據從小到大排列,「第 P 百分位」代表有 P% 的數據比你小。如果 4.5 萬在第 65 百分位,代表 65% 的人薪資比你低、35% 的人比你高。

最常見的百分位數:四分位數(Quartile)。Q1(第 25 百分位)、Q2(第 50 百分位 = 中位數)、Q3(第 75 百分位)把資料切成四份。薪資報告常用「四分位距(IQR)」描述中間那 50% 的範圍。

中位數不是反映極端值的工具,而是抗離群值的工具:它的強項是「不受極端值影響,反映中間狀態」。說它「能反映極端值的影響」是說反了。

這就是選項 C 說對的:百分位數(Percentile)的核心用途是衡量一個值在整體分布中的相對位置,告訴你「你在哪裡」

技術版:四個統計指標的正確特性速查

考試常考「統計指標的特性」,這四個必須掌握:

平均值(Mean):加總後除以數量。優點:計算簡單、數學性質好(可用於進一步統計計算)。缺點:對離群值極度敏感,一個極端值就能把平均拉偏很遠。適用:資料沒有極端值、分布對稱時。不適用:薪資、房價、所得這類右偏分布。

中位數(Median):排序後取中間那個值。優點:對離群值有抵抗力(Robust),極端值不影響它。缺點:不能直接做加減乘除的統計推導。適用:有離群值或偏態分布,如薪資、房價。注意:中位數是「忽略」極端值,不是「反映」極端值。

標準差(Standard Deviation):衡量資料偏離平均值的程度。標準差越大代表資料越分散(不是越集中)。標準差接近 0 代表幾乎所有數據都跟平均值一樣(極度集中)。是衡量「波動性」和「風險」的常用指標。

百分位數(Percentile):衡量相對位置。第 P 百分位代表有 P% 的數據低於此值。常見的:第 50 百分位 = 中位數;第 25、50、75 百分位 = Q1、Q2、Q3(四分位數)。用於比較個人在群體中的位置,如考試成績排名、身高分布。

為什麼出題者考這題:AI 分析師在選擇「用哪個統計指標描述資料」時,必須知道每個指標的適用場景和局限。用錯指標,報告結論就會誤導決策者。

05 陷阱

為什麼其他選項是錯的

A中位數(Median)能有效反映極端值對資料分佈的影響

字面在說什麼

說中位數能讓我們看出離群值的影響。

為什麼不對

完全說反了。中位數的特性是不受極端值影響,極端值出現時中位數幾乎不變。如果要看極端值的影響,應該看平均值(平均值對離群值敏感)。中位數的正確描述是「能有效規避離群值的干擾」。

誰會選錯

把中位數和平均值的特性搞混的人。關鍵記憶點:中位數「抗」極端值,平均值「怕」極端值。

B標準差(Standard Deviation)越大,代表資料越集中

字面在說什麼

說標準差大 = 資料集中在平均值附近。

為什麼不對

完全說反了。標準差衡量的是資料的分散程度:標準差越大代表數據離平均值越遠、越分散;標準差越小代表數據緊緊聚在平均值附近、越集中。正確說法:「標準差越大,資料越分散。」

誰會選錯

看到「越大」就以為是「正向的更好」,腦子沒有對到「分散 vs 集中」的方向。標準差是「離散度」指標,大 = 散,小 = 集中。

D平均值(Mean)適合描述偏態且包含離群值(Outliers)的資料

字面在說什麼

說平均值適合用在有偏態和離群值的資料。

為什麼不對

完全說反了。平均值最不適合用在偏態或有離群值的資料,因為它對極端值極度敏感,一個高薪離群值就能讓平均值嚴重偏離多數人的實際狀況。有偏態或離群值時,應該用中位數或四分位數。

誰會選錯

沒想清楚「平均值被什麼影響」就直覺選的人。考試出現「偏態」和「離群值」這兩個詞,幾乎都在提示「不要用平均值」。

06 變形

同個考點下次怎麼變形

變形 1

台灣的房價分析,用平均值還是中位數更能反映一般人的狀況?

直覺

平均值比較好算,應該用平均值?

答案

中位數。台灣房價分布是嚴重右偏(少數豪宅動輒幾億),平均值被這些極端高價拉偏,根本不能反映一般人面對的市場。中位數是「排在正中間那戶」的價格,才是多數人買房的真實參考。

變形 2

四分位距(IQR)是什麼?有什麼用途?

直覺

看過這個詞但不確定是什麼。

答案

四分位距(Interquartile Range, IQR)= Q3(第 75 百分位)- Q1(第 25 百分位),代表中間 50% 的數據範圍。用途:描述資料分散程度(對離群值有抵抗力,比標準差更適合偏態資料);也用於偵測離群值(超過 Q3 + 1.5×IQR 或低於 Q1 - 1.5×IQR 就算離群值)。

變形 3

標準差和變異數(Variance)有什麼關係?

直覺

兩個都是描述分散程度,是同一件事嗎?

答案

變異數是每個數值偏離平均值的平方差的平均,標準差是變異數開根號。兩者都衡量分散程度,但標準差的單位跟原始資料相同(方便直觀理解),變異數的單位是原始資料單位的平方。考試通常考標準差,但兩者方向一致:越大越分散。

變形 4

考試成績「第 90 百分位」代表什麼意思?

直覺

是成績 90 分嗎?

答案

不是成績 90 分。第 90 百分位(P90)代表你的成績超過 90% 的考生,只有 10% 的人成績比你高。百分位數說的是「相對排名」,不是「絕對分數」。例如:某次難度很高的考試,60 分可能就在第 90 百分位。

變形 5

在 AI 模型評估中,什麼時候會用到標準差?

直覺

統計指標在 AI 模型評估裡用得到嗎?

答案

常見用途:交叉驗證(Cross-validation)時,跑多次訓練後計算準確率的標準差,衡量模型表現的穩定性。標準差大 = 模型表現波動大、不穩定;標準差小 = 模型表現一致、可靠。預測誤差的標準差也用於衡量預測的不確定性。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 115 年第一次 iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論 第 16 題

查看官方原文 PDF