iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論

什麼情境最適合用直方圖?

原題 17

某企業資料分析人員需針對不同型態的數據選擇合適的視覺化工具。下列哪一種情境最適合使用直方圖(Histogram)?

白話

某企業資料分析人員需要針對不同類型的數據,選擇合適的視覺化工具。題目提供四種情境,分別代表不同的資料分析需求。

問你:哪一種情境最適合使用直方圖(Histogram)?

點選你的答案。

01 總結

一句話總結

直方圖(Histogram)是用來看一個連續數值資料在不同區間的分布形狀,「顧客年齡在不同年齡段的集中情形」正是它的拿手場景。

02 情境

先感受問題:行銷主管說「幫我看顧客年齡分布」,你選什麼圖?

「樂購零售」的行銷主管張雅婷要規劃廣告投放策略。她說:「幫我看一下我們的顧客都是幾歲的人,哪個年齡層最多?」

資料分析師林俊霖手上有 5 萬筆顧客的年齡數據,從 18 歲到 75 歲都有。他怎麼讓張雅婷一眼看出「主力客群在哪個年齡段」?

答案:直方圖。把年齡切成幾個區間(18-25 歲、26-35 歲、36-45 歲…),每個區間的長條高度代表「這個年齡段有多少顧客」。張雅婷一看就知道:主力客群是 26-35 歲,其次是 36-45 歲,18-25 歲相對少。

這就是直方圖的核心用途:把連續數值切成區間,看每個區間有多少筆資料,呈現整體分布形狀。

03 對照

用錯圖表,分析師的苦日子

林俊霖還沒學會選對圖表時,每次被問「年齡分布」都這樣處理,結果一塌糊塗:

  1. 用長條圖列出每個年齡:18 歲一條、19 歲一條…75 歲一條,出現 57 條長條,密密麻麻完全看不出規律
  2. 用折線圖畫年齡趨勢:折線圖適合時間序列,顧客年齡不是隨時間變化的資料,畫出來意義不明
  3. 用圓餅圖分年齡:分成 57 個扇形,每個扇形都只有 1-3%,什麼都看不出來
  4. 用散點圖:散點圖需要兩個變數對應,只有一個「年齡」變數,散點圖根本畫不了
  5. 直接列平均年齡:說「平均 36 歲」,但張雅婷還是不知道 30 歲和 36 歲的顧客比例差多少

每一種錯誤都讓分析結果變得難以理解或意義失真。

04 解法

直方圖是怎麼工作的

林俊霖學會了直方圖的製作邏輯:

第一步:定義區間(Bin)。把年齡從 18 到 75 歲,每 10 歲切一個區間:18-27、28-37、38-47、48-57、58-67、68-75。這些區間稱為 Bin(桶)。

第二步:計算每個 Bin 的頻率。落在 18-27 歲區間的顧客有 3,200 人、28-37 歲有 14,500 人、38-47 歲有 18,000 人……

第三步:畫出長條。每個 Bin 對應一條長條,高度代表人數(或比例)。長條緊密相鄰(不留空隙),這是直方圖跟長條圖(Bar Chart)在外觀上的主要區別。

張雅婷看完直方圖,立刻決定:主廣告預算投 28-47 歲的平台(Facebook + LINE),副廣告測試 18-27 歲的 Instagram。

這就是選項 A 最適合用直方圖的原因:「顧客年齡在不同區間的集中情形」正是看連續數值分布,直方圖是最對的工具

技術版:五種常見圖表的適用場景速查

iPAS 常考「什麼情境用什麼圖」,五種必須記住:

直方圖(Histogram):一個連續數值的分布。X 軸是數值區間,Y 軸是頻率或數量。用途:看年齡分布、成績分布、收入分布。特徵:長條緊密相鄰,無空隙。

長條圖(Bar Chart):比較多個類別的數值大小。X 軸是離散類別,Y 軸是數量或比率。用途:比較各產品銷售額、各部門人數。特徵:長條之間有空隙,類別有固定名稱。

散點圖(Scatter Plot):探索兩個連續變數的關係(相關性)。每個點代表一筆資料,X 軸和 Y 軸分別是兩個變數。用途:看售價和銷售量是否相關、廣告費和業績的關係。

折線圖(Line Chart):呈現隨時間變化的趨勢。X 軸通常是時間,Y 軸是數值。用途:股價走勢、月銷售額變化、氣溫趨勢。

地圖(Map / Choropleth):呈現地理分布。用顏色深淺或標記位置表示各地的數值差異。用途:各縣市加盟店位置、各地區人口密度。

直方圖 vs 長條圖的最常混淆點:直方圖是連續數值分組(年齡、身高、薪資),長條圖是離散類別比較(蘋果、橘子、香蕉的銷售量)。外觀上:直方圖長條緊靠、長條圖長條有空隙。

05 陷阱

為什麼其他選項是錯的

B分析產品售價與銷售量之間的關聯程度

字面在說什麼

想看「售價越高,銷量是否越低?」這種兩個變數之間的關係。

為什麼不對

兩個連續變數的關係要用散點圖(Scatter Plot)。每個商品畫一個點,X 軸是售價、Y 軸是銷量,看點的分布是否有趨勢。直方圖只能呈現一個變數的分布,無法同時表達兩個變數的關聯。

誰會選錯

看到「分析」兩個字就以為是直方圖的人。記住:直方圖是一個變數的分布,散點圖是兩個變數的關係。

C比較各產品類別的年度銷售總額

字面在說什麼

手機類、電視類、電腦類,各類別去年各賣了多少,放在一起比較。

為什麼不對

比較多個離散類別的數值,要用長條圖(Bar Chart),不是直方圖。類別(手機、電視、電腦)是有固定名稱的離散類別,不是「連續數值的區間」。直方圖的 X 軸是連續數值切割出來的區間,不是命名的類別。

誰會選錯

直方圖和長條圖外觀相似,容易混淆。關鍵區別:類別 = 長條圖;連續數值分組 = 直方圖。

D在地圖上標示各縣市加盟店的地理分布位置

字面在說什麼

把全台 22 個縣市的加盟店位置標在地圖上,看哪裡密、哪裡疏。

為什麼不對

地理位置的視覺化要用地圖(Map),包括地理熱力圖、氣泡地圖或標記地圖。直方圖是純數字分組,完全無法表達地理空間資訊。

誰會選錯

考試緊張時沒有認真讀選項、隨手猜的人。這是四個選項裡最容易排除的一個,地理資訊跟直方圖完全沒有關係。

06 變形

同個考點下次怎麼變形

變形 1

直方圖和長條圖(Bar Chart)外觀很像,考試怎麼快速區分?

直覺

兩個都是長條,真的很容易搞混。

答案

關鍵問一個問題:X 軸的分類是連續數值的區間(年齡 18-25、26-35…)還是有名字的離散類別(手機、電腦、電視)?前者是直方圖(長條緊靠),後者是長條圖(長條有空隙)。

變形 2

探索性資料分析(EDA)中,最常用直方圖來檢查什麼?

直覺

拿到一份新數據,什麼情況會先畫直方圖?

答案

主要檢查三件事:資料的分布形狀(正態、左偏、右偏)、有沒有離群值(分布尾端特別長或有孤立的長條)、資料的值域範圍(最小最大在哪)。這三件事是訓練 AI 模型前必須了解的基本資訊。

變形 3

想看「不同月份的銷售額走勢」,用什麼圖最合適?

直覺

月份是一個接一個的,感覺跟直方圖的「區間」有點像?

答案

折線圖(Line Chart)。月份是時間序列,重點是看「趨勢變化」(銷售額隨時間增減),折線圖強調連續性和方向。直方圖是看一個數值變數在各區間的頻率分布,月份不是這個概念。

變形 4

AI 模型訓練時,為什麼要用直方圖檢查訓練資料?

直覺

直方圖跟 AI 訓練有什麼關係?

答案

訓練資料不平衡(某些類別極少)會讓模型偏向多數類別。用直方圖檢查標籤分布或特徵分布,能快速發現資料不平衡(Class Imbalance)問題。例如詐欺偵測模型,若 99% 是「非詐欺」、只有 1% 是「詐欺」,直方圖一看就會發現這個嚴重的不均衡。

變形 5

箱形圖(Box Plot)和直方圖都能看分布,有何差異?

直覺

兩個都是看資料分布的工具,用哪個都一樣嗎?

答案

直方圖能看分布的完整形狀(是否對稱、幾個峰值);箱形圖能快速看中位數、四分位距、離群值,特別適合多組數據的比較(如「不同年齡段的薪資分布」放四個箱形圖比較)。兩者互補,各有用途。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 115 年第一次 iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論 第 17 題

查看官方原文 PDF