你有沒有在看兩個數字是不是常常一起變動時,還在想這件事到底該怎麼看?
把它想成兩個變化方向是否同步的分數。 正值表示常常一起上升或一起下降,負值表示一個上升時另一個常下降。 它常用來先看兩個變數有沒有線性關係,再決定要不要進一步分析。
你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。
容易混淆
correlation vs 相關係數 (Correlation):共變異數衡量的是兩個變數「一起變動的程度」,它的數值大小會受到變數單位和量級的影響,所以很難直接比較不同數據集的關係強弱;相關係數則是在共變異數的基礎上進行標準化,把值限制在 -1 到 1,讓不同數據集之間的關係強度可以互相比較。 常見混淆:共變異數 vs correlation 相關係數把尺度標準化後才好比較強弱,共變異數沒有這個步驟。
記住這句就好
一起動就是正,反著動就是負。
實際案例
氣溫與冰品銷量 天氣越熱,冰品賣得越多,兩者通常會同向變動。 廣告支出與流量 投放增加時,網站流量常跟著上升。
算法與應用
- 共變異數只看方向,不直接告訴你關係有多強。
- 因為會受單位影響,不同資料集之間很難直接比較。
- 若要比較強弱,通常會再看相關係數。
情境判斷
Q1: 兩個變數的共變異數是正的,代表什麼?
Q2: 共變異數是 0,就代表完全沒關係嗎?
常見問題
共變異數是正數、負數或零代表什麼意義?
正共變異數表示兩個變數傾向於一起增加或減少。負共變異數表示一個變數增加時,另一個變數傾向於減少。零共變異數表示兩個變數之間沒有線性關係。但要注意,零共變異數不代表兩個變數之間沒有任何關係,可能存在非線性關係。
共變異數和相關係數有什麼區別?
共變異數衡量兩個變數如何一起變化,但其值取決於變數的尺度,因此難以直接比較不同資料集的共變異數。相關係數是共變異數的標準化版本,將其縮放到 -1 到 1 的範圍內,使其更容易比較和解釋。相關係數也更容易判斷關係的強弱。
如何處理共變異數計算中的離群值?
離群值會對共變異數產生很大的影響。處理離群值的方法包括:移除離群值(如果它們是錯誤或不具代表性的資料點)、使用更穩健的統計方法(例如,使用中位數而不是平均值)、或轉換資料以減少離群值的影響。具體選擇哪種方法取決於資料的性質和分析的目的。