iPAS AI 應用規劃師中級　科目二　大數據處理分析與應用

廣告預算與銷售金額的線性關係，用哪種方法衡量？

原題 30

某行銷團隊想了解「廣告預算」與「銷售金額」之間的關聯程度。經繪製散佈圖後發現兩者呈現明顯線性趨勢，且資料中無明顯離群值（Outliers）。若希望衡量兩者之間線性關係的強度與方向，下列哪一種方法最適合？

白話

一個行銷團隊畫了散佈圖，發現廣告預算和銷售金額之間有明顯的線性趨勢，資料也沒有離群值。他們想知道這兩個變數之間線性關係的強度（多強）和方向（同漲還是反向）。

問你：哪種統計方法最適合衡量兩個連續變數之間線性關係的強度與方向？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

衡量兩個連續變數之間「線性關係的強度與方向」的標準工具是：皮爾森相關係數（Pearson Correlation Coefficient，r）。值域 [-1, +1]，正值同向、負值反向、接近 0 代表無線性關聯。題目條件（線性趨勢、無離群值）正好是皮爾森的最佳適用場景。

02　情境

先感受問題：廣告費花越多，銷售是不是真的越好

好購電商的行銷總監雅婷，手上有過去 24 個月的月度資料：每個月花了多少廣告費（廣告預算，單位：萬元）、那個月的銷售金額（單位：百萬元）。

她畫了散佈圖，發現廣告費高的月份，銷售金額通常也比較高，呈現明顯的線性趨勢，且沒有奇怪的離群點。

董事會問：「廣告預算和銷售的關係有多強？增加廣告費，銷售大概會跟著增加嗎？」

她需要一個數字來回答「這兩者的線性關係有多強、方向是同向還是反向」，而不是一張圖形。

03　對照

衡量兩個變數關係，為什麼不能用誤差指標

RMSE 和 MAE 是誤差量，不是關聯量：RMSE（均方根誤差）和 MAE（平均絕對誤差）是「預測值和真實值的差距」，需要先有一個預測模型，量的是模型的準確度，不是兩個變數之間的關聯強度。
共變異數有量綱問題：共變異數（Covariance）確實反映兩個變數的「同向程度」，但它的值域是無限的，取決於兩個變數的單位（萬元 × 百萬元），不同量綱的共變異數值根本沒辦法比較「強弱」。
無標準化的指標難以解讀強度：「共變異數 = 1,500 萬元²，是強還是弱？」沒有辦法判斷，因為沒有標準化的參考範圍。皮爾森相關係數把共變異數標準化到 [-1, +1]，讓強度一目了然。
散佈圖只能看趨勢，不能量化：看起來有線性趨勢，但 r = 0.4 和 r = 0.9 的散佈圖「視覺上都像有線性關係」，只有計算相關係數才能精確量化。
錯用誤差指標會混淆因果解釋：RMSE 衡量的是「模型的表現」，而非「兩個變數的關係」。用 RMSE 回答「廣告費和銷售有多相關」，邏輯上就是錯的。

04　解法

皮爾森相關係數：一個數字說清楚線性關係強度和方向

雅婷計算廣告預算（X）和銷售金額（Y）的皮爾森相關係數：

r = Cov(X, Y) / (σ_X × σ_Y)

也就是：把共變異數除以兩個變數各自的標準差，消除量綱影響，把結果壓縮到 [-1, +1]。

結果算出來 r = 0.87。她向董事會報告：

r = 0.87：廣告預算和銷售金額之間有強正相關
正值（+0.87）：同向，廣告費高的月份，銷售也高
0.87 的絕對值接近 1：關聯程度相當強，不是偶然

董事會立刻理解：「增加廣告預算，銷售很可能跟著提升，這個關聯強度足以支持我們繼續投入廣告。」

這就是選項 C 講的：皮爾森相關係數（Pearson Correlation Coefficient）。

技術版：皮爾森相關係數的數學背景與適用條件

皮爾森相關係數（Pearson's r）的公式：

r = Σ[(x_i - x̄)(y_i - ȳ)] / [√(Σ(x_i - x̄)²) × √(Σ(y_i - ȳ)²)]

等價表達：r = Cov(X, Y) / (SD_X × SD_Y)

皮爾森相關係數的適用條件（全部符合才用皮爾森）：

兩個變數都是連續數值型（Continuous Numeric）
兩者之間的關係是線性的（非曲線）
資料近似常態分佈，或樣本量足夠大（中央極限定理保護）
無嚴重的離群值（離群值會嚴重拉扯 r 的值，讓相關係數失真）

本題的情境完全符合：題目明確說「呈現明顯線性趨勢」且「無明顯離群值」，皮爾森是最合適的選擇。

與共變異數的關係：皮爾森相關係數本質上是標準化的共變異數。共變異數告訴你「方向」（正負），但大小無法直接解讀；皮爾森把共變異數除以兩個標準差，壓縮到 [-1, +1]，強度解讀標準化了。

與斯皮爾曼相關係數的選擇：若資料有離群值、非常態、或兩者之間是單調但非線性的關係，改用斯皮爾曼（Spearman）相關係數——它基於秩次計算，對這些情況更穩健。

為什麼 iPAS 考這題：相關係數是資料分析最基礎的工具之一，也是 EDA（探索性分析）的標準步驟。清楚區分相關性衡量工具（皮爾森、斯皮爾曼）和誤差衡量工具（RMSE、MAE）是基礎統計能力的核心考點。

05　陷阱

為什麼其他選項是錯的

A均方根誤差（Root Mean Squared Error, RMSE）

字面在說什麼

RMSE 可以衡量兩個值之間的「差距」，用來看廣告費和銷售的關係。

為什麼不對

RMSE 衡量的是「模型預測值和真實值之間的誤差」，是評估模型準確度的指標，需要先有一個預測模型。用 RMSE 衡量「廣告費和銷售的線性關係強度」邏輯上根本不通，它量的是完全不同的概念。

誰會選錯

知道 RMSE 是「一個衡量兩個數字差異的指標」，但沒注意到它是「預測誤差」而非「關聯強度」的人。誤差 ≠ 相關。

B共變異數（Covariance）

字面在說什麼

共變異數確實衡量兩個變數的同向程度，方向正確。

為什麼不對

共變異數確實能告訴你「方向」（正負），但無法告訴你「強度」（多強）。共變異數的值取決於兩個變數的量綱和尺度：廣告費用「萬元」計和「元」計，共變異數差了 10,000 倍，但關係強度沒有改變。因為沒有標準化值域，「共變異數 = 500」強還是弱？無從判斷。皮爾森相關係數正是把共變異數標準化，才能比較強度。

誰會選錯

知道共變異數跟相關性有關，但不知道「無法標準化強度」這個限制的人。共變異數是皮爾森的「前身」，但皮爾森才是完整的工具。

D平均絕對誤差（Mean Absolute Error, MAE）

字面在說什麼

MAE 計算預測和真實的平均差距，可以衡量廣告費和銷售的「差距程度」。

為什麼不對

MAE 跟 RMSE 一樣，是「模型預測誤差」的量，需要有預測值才能計算。衡量「廣告費和銷售金額的線性關聯程度」不是 MAE 的使用場景。MAE 和 RMSE 是模型評估工具，皮爾森相關係數是變數關聯分析工具，兩者屬於不同的分析目的。

相關係數（Correlation）衡量兩個變數線性關係強度與方向的核心統計量，皮爾森相關係數是最常用的版本。
共變異數（Covariance）衡量兩個變數同向程度的原始量，皮爾森相關係數是共變異數標準化後的版本，解決了量綱問題。
線性迴歸法（Linear Regression）在確認皮爾森相關後，線性回歸進一步建立預測方程式，r² 就是線性回歸的決定係數。
描述性統計（Descriptive Statistics）皮爾森相關係數是雙變數描述性統計的核心指標，與均值、標準差一起用於 EDA。
均方誤差（Mean Squared Error）與 RMSE/MAE 同屬模型評估指標，衡量預測誤差而非變數關聯，應與相關係數明確區分用途。