廣告預算與銷售金額的線性關係,用哪種方法衡量?
某行銷團隊想了解「廣告預算」與「銷售金額」之間的關聯程度。經繪製散佈圖後發現兩者呈現明顯線性趨勢,且資料中無明顯離群值(Outliers)。若希望衡量兩者之間線性關係的強度與方向,下列哪一種方法最適合?
一個行銷團隊畫了散佈圖,發現廣告預算和銷售金額之間有明顯的線性趨勢,資料也沒有離群值。他們想知道這兩個變數之間線性關係的強度(多強)和方向(同漲還是反向)。
問你:哪種統計方法最適合衡量兩個連續變數之間線性關係的強度與方向?
一句話總結
衡量兩個連續變數之間「線性關係的強度與方向」的標準工具是:皮爾森相關係數(Pearson Correlation Coefficient,r)。值域 [-1, +1],正值同向、負值反向、接近 0 代表無線性關聯。題目條件(線性趨勢、無離群值)正好是皮爾森的最佳適用場景。
先感受問題:廣告費花越多,銷售是不是真的越好
好購電商的行銷總監雅婷,手上有過去 24 個月的月度資料:每個月花了多少廣告費(廣告預算,單位:萬元)、那個月的銷售金額(單位:百萬元)。
她畫了散佈圖,發現廣告費高的月份,銷售金額通常也比較高,呈現明顯的線性趨勢,且沒有奇怪的離群點。
董事會問:「廣告預算和銷售的關係有多強?增加廣告費,銷售大概會跟著增加嗎?」
她需要一個數字來回答「這兩者的線性關係有多強、方向是同向還是反向」,而不是一張圖形。
衡量兩個變數關係,為什麼不能用誤差指標
- RMSE 和 MAE 是誤差量,不是關聯量:RMSE(均方根誤差)和 MAE(平均絕對誤差)是「預測值和真實值的差距」,需要先有一個預測模型,量的是模型的準確度,不是兩個變數之間的關聯強度。
- 共變異數有量綱問題:共變異數(Covariance)確實反映兩個變數的「同向程度」,但它的值域是無限的,取決於兩個變數的單位(萬元 × 百萬元),不同量綱的共變異數值根本沒辦法比較「強弱」。
- 無標準化的指標難以解讀強度:「共變異數 = 1,500 萬元²,是強還是弱?」沒有辦法判斷,因為沒有標準化的參考範圍。皮爾森相關係數把共變異數標準化到 [-1, +1],讓強度一目了然。
- 散佈圖只能看趨勢,不能量化:看起來有線性趨勢,但 r = 0.4 和 r = 0.9 的散佈圖「視覺上都像有線性關係」,只有計算相關係數才能精確量化。
- 錯用誤差指標會混淆因果解釋:RMSE 衡量的是「模型的表現」,而非「兩個變數的關係」。用 RMSE 回答「廣告費和銷售有多相關」,邏輯上就是錯的。
皮爾森相關係數:一個數字說清楚線性關係強度和方向
雅婷計算廣告預算(X)和銷售金額(Y)的皮爾森相關係數:
也就是:把共變異數除以兩個變數各自的標準差,消除量綱影響,把結果壓縮到 [-1, +1]。
結果算出來 r = 0.87。她向董事會報告:
- r = 0.87:廣告預算和銷售金額之間有強正相關
- 正值(+0.87):同向,廣告費高的月份,銷售也高
- 0.87 的絕對值接近 1:關聯程度相當強,不是偶然
董事會立刻理解:「增加廣告預算,銷售很可能跟著提升,這個關聯強度足以支持我們繼續投入廣告。」
這就是選項 C 講的:皮爾森相關係數(Pearson Correlation Coefficient)。
技術版:皮爾森相關係數的數學背景與適用條件
皮爾森相關係數(Pearson's r)的公式:
r = Σ[(x_i - x̄)(y_i - ȳ)] / [√(Σ(x_i - x̄)²) × √(Σ(y_i - ȳ)²)]
等價表達:r = Cov(X, Y) / (SD_X × SD_Y)
皮爾森相關係數的適用條件(全部符合才用皮爾森):
- 兩個變數都是連續數值型(Continuous Numeric)
- 兩者之間的關係是線性的(非曲線)
- 資料近似常態分佈,或樣本量足夠大(中央極限定理保護)
- 無嚴重的離群值(離群值會嚴重拉扯 r 的值,讓相關係數失真)
本題的情境完全符合:題目明確說「呈現明顯線性趨勢」且「無明顯離群值」,皮爾森是最合適的選擇。
與共變異數的關係:皮爾森相關係數本質上是標準化的共變異數。共變異數告訴你「方向」(正負),但大小無法直接解讀;皮爾森把共變異數除以兩個標準差,壓縮到 [-1, +1],強度解讀標準化了。
與斯皮爾曼相關係數的選擇:若資料有離群值、非常態、或兩者之間是單調但非線性的關係,改用斯皮爾曼(Spearman)相關係數——它基於秩次計算,對這些情況更穩健。
為什麼 iPAS 考這題:相關係數是資料分析最基礎的工具之一,也是 EDA(探索性分析)的標準步驟。清楚區分相關性衡量工具(皮爾森、斯皮爾曼)和誤差衡量工具(RMSE、MAE)是基礎統計能力的核心考點。
為什麼其他選項是錯的
A均方根誤差(Root Mean Squared Error, RMSE)
RMSE 可以衡量兩個值之間的「差距」,用來看廣告費和銷售的關係。
RMSE 衡量的是「模型預測值和真實值之間的誤差」,是評估模型準確度的指標,需要先有一個預測模型。用 RMSE 衡量「廣告費和銷售的線性關係強度」邏輯上根本不通,它量的是完全不同的概念。
知道 RMSE 是「一個衡量兩個數字差異的指標」,但沒注意到它是「預測誤差」而非「關聯強度」的人。誤差 ≠ 相關。
B共變異數(Covariance)
共變異數確實衡量兩個變數的同向程度,方向正確。
共變異數確實能告訴你「方向」(正負),但無法告訴你「強度」(多強)。共變異數的值取決於兩個變數的量綱和尺度:廣告費用「萬元」計和「元」計,共變異數差了 10,000 倍,但關係強度沒有改變。因為沒有標準化值域,「共變異數 = 500」強還是弱?無從判斷。皮爾森相關係數正是把共變異數標準化,才能比較強度。
知道共變異數跟相關性有關,但不知道「無法標準化強度」這個限制的人。共變異數是皮爾森的「前身」,但皮爾森才是完整的工具。
D平均絕對誤差(Mean Absolute Error, MAE)
MAE 計算預測和真實的平均差距,可以衡量廣告費和銷售的「差距程度」。
MAE 跟 RMSE 一樣,是「模型預測誤差」的量,需要有預測值才能計算。衡量「廣告費和銷售金額的線性關聯程度」不是 MAE 的使用場景。MAE 和 RMSE 是模型評估工具,皮爾森相關係數是變數關聯分析工具,兩者屬於不同的分析目的。
把「評估兩個數值之間的差異」誤認為可以用來衡量「兩個變數的關聯程度」的人。「差異」(誤差)和「關聯」(相關)是兩個不同的統計概念。
同個考點下次怎麼變形
若資料中有幾個極端的離群值,應改用哪種相關係數?
有離群值,皮爾森就不適用了嗎?
是的,皮爾森對離群值非常敏感(因為它基於平均值和標準差)。有離群值時,應改用斯皮爾曼相關係數(Spearman's ρ):它把資料轉成秩次(排名)後計算,排名不受極端值的絕對大小影響,對離群值更穩健。
r = 0.9 代表廣告費增加,銷售一定會增加嗎?
相關係數這麼高,代表有因果關係嗎?
不一定。相關不等於因果(Correlation ≠ Causation)。r = 0.9 只說明兩者高度線性同步,但可能有第三個「隱藏變數」(例如:景氣好的月份廣告費也多、銷售也好),或純粹是歷史資料的巧合。要確認因果關係需要實驗設計(如 A/B 測試)或更嚴謹的因果推論方法。
皮爾森相關係數和線性回歸,有什麼關係?
皮爾森衡量相關,線性回歸也處理線性關係,兩者有關嗎?
有深刻關係。皮爾森 r 的平方(r²,決定係數,R-squared)正是簡單線性回歸中「模型解釋的方差比例」。r = 0.9 → r² = 0.81,意味著線性回歸模型能解釋銷售變異的 81%。皮爾森衡量關聯強度,線性回歸進一步建立預測方程式(斜率、截距),兩者是同一個線性關係的不同描述角度。
散佈圖看起來有 U 型曲線關係,皮爾森相關係數還有意義嗎?
X 低時 Y 高,X 高時 Y 也高,形成 U 型,這也是「相關」嗎?
U 型關係是非線性關係,皮爾森相關係數只衡量線性關係,對 U 型這類對稱的非線性關係,r 可能接近 0(因為上升部分和下降部分互相抵消),但兩者確實有強烈的非線性關聯。此時皮爾森不適用,需要改用非線性相關指標(如 Spearman、Kendall's τ)或直接建非線性模型。
衡量兩個二元(0/1)變數之間的關聯,用什麼方法?
皮爾森是連續變數用的,類別型變數(如:是否購買 0/1)怎麼算關聯?
兩個二元變數用 Phi 係數(等同於皮爾森在 0/1 資料上的特例)或卡方檢定(Chi-Square Test)。一個連續、一個二元,用點二列相關(Point-Biserial Correlation)。兩個多類別的名目變數,用 Cramér's V。選對統計量,前提是先確認變數的測量尺度(名目、序列、連續)。
想再往下看,這 5 個
- 相關係數(Correlation)衡量兩個變數線性關係強度與方向的核心統計量,皮爾森相關係數是最常用的版本。
- 共變異數(Covariance)衡量兩個變數同向程度的原始量,皮爾森相關係數是共變異數標準化後的版本,解決了量綱問題。
- 線性迴歸法(Linear Regression)在確認皮爾森相關後,線性回歸進一步建立預測方程式,r² 就是線性回歸的決定係數。
- 描述性統計(Descriptive Statistics)皮爾森相關係數是雙變數描述性統計的核心指標,與均值、標準差一起用於 EDA。
- 均方誤差(Mean Squared Error)與 RMSE/MAE 同屬模型評估指標,衡量預測誤差而非變數關聯,應與相關係數明確區分用途。