共變異數 是什麼?
Covariance — 共變異數 的完整解釋
共變異數衡量兩個變數如何一起變化。正值表示它們趨於一起增加或減少,負值表示一個增加時另一個趨於減少,零值表示沒有線性關係。
容易混淆
correlation vs 相關係數 (Correlation):共變異數衡量的是兩個變數「一起變動的程度」,它的數值大小會受到變數單位和量級的影響,所以很難直接比較不同數據集的關係強弱;相關係數則是在共變異數的基礎上進行標準化,把值限制在 -1 到 1,讓不同數據集之間的關係強度可以互相比較。 常見混淆:共變異數 vs correlation 相關係數把尺度標準化後才好比較強弱,共變異數沒有這個步驟。
記住這句就好
一起動就是正,反著動就是負。
實際案例
氣溫與冰品銷量 天氣越熱,冰品賣得越多,兩者通常會同向變動。 廣告支出與流量 投放增加時,網站流量常跟著上升。
算法與應用
- 共變異數只看方向,不直接告訴你關係有多強。
- 因為會受單位影響,不同資料集之間很難直接比較。
- 若要比較強弱,通常會再看相關係數。
情境判斷
Q1:兩個變數的共變異數是正的,代表什麼? → 代表它們常常一起增加或一起減少。 Q2:共變異數是 0,就代表完全沒關係嗎? → 不一定,可能只是沒有線性關係,仍可能存在非線性關係。
相關術語
常見問題
共變異數是正數、負數或零代表什麼意義?
正共變異數表示兩個變數傾向於一起增加或減少。負共變異數表示一個變數增加時,另一個變數傾向於減少。零共變異數表示兩個變數之間沒有線性關係。但要注意,零共變異數不代表兩個變數之間沒有任何關係,可能存在非線性關係。
共變異數和相關係數有什麼區別?
共變異數衡量兩個變數如何一起變化,但其值取決於變數的尺度,因此難以直接比較不同資料集的共變異數。相關係數是共變異數的標準化版本,將其縮放到 -1 到 1 的範圍內,使其更容易比較和解釋。相關係數也更容易判斷關係的強弱。
如何處理共變異數計算中的離群值?
離群值會對共變異數產生很大的影響。處理離群值的方法包括:移除離群值(如果它們是錯誤或不具代表性的資料點)、使用更穩健的統計方法(例如,使用中位數而不是平均值)、或轉換資料以減少離群值的影響。具體選擇哪種方法取決於資料的性質和分析的目的。