共變異數(Covariance)是什麼?

共變異數衡量兩個變數如何一起變化。正值表示它們趨於一起增加或減少,負值表示一個增加時另一個趨於減少,零值表示沒有線性關係。|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

共變異數(Covariance)是什麼? 統計方法資料處理

你有沒有在看兩個數字是不是常常一起變動時,還在想這件事到底該怎麼看?

把它想成兩個變化方向是否同步的分數。 正值表示常常一起上升或一起下降,負值表示一個上升時另一個常下降。 它常用來先看兩個變數有沒有線性關係,再決定要不要進一步分析。

你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。

容易混淆

correlation vs 相關係數 (Correlation):共變異數衡量的是兩個變數「一起變動的程度」,它的數值大小會受到變數單位和量級的影響,所以很難直接比較不同數據集的關係強弱;相關係數則是在共變異數的基礎上進行標準化,把值限制在 -1 到 1,讓不同數據集之間的關係強度可以互相比較。 常見混淆:共變異數 vs correlation 相關係數把尺度標準化後才好比較強弱,共變異數沒有這個步驟。

記住這句就好

一起動就是正,反著動就是負。

實際案例

氣溫與冰品銷量 天氣越熱,冰品賣得越多,兩者通常會同向變動。 廣告支出與流量 投放增加時,網站流量常跟著上升。

算法與應用

  1. 共變異數只看方向,不直接告訴你關係有多強。
  2. 因為會受單位影響,不同資料集之間很難直接比較。
  3. 若要比較強弱,通常會再看相關係數。

情境判斷

Q1: 兩個變數的共變異數是正的,代表什麼?

代表它們常常一起增加或一起減少。

Q2: 共變異數是 0,就代表完全沒關係嗎?

不一定,可能只是沒有線性關係,仍可能存在非線性關係。

常見問題

共變異數是正數、負數或零代表什麼意義?

正共變異數表示兩個變數傾向於一起增加或減少。負共變異數表示一個變數增加時,另一個變數傾向於減少。零共變異數表示兩個變數之間沒有線性關係。但要注意,零共變異數不代表兩個變數之間沒有任何關係,可能存在非線性關係。

共變異數和相關係數有什麼區別?

共變異數衡量兩個變數如何一起變化,但其值取決於變數的尺度,因此難以直接比較不同資料集的共變異數。相關係數是共變異數的標準化版本,將其縮放到 -1 到 1 的範圍內,使其更容易比較和解釋。相關係數也更容易判斷關係的強弱。

如何處理共變異數計算中的離群值?

離群值會對共變異數產生很大的影響。處理離群值的方法包括:移除離群值(如果它們是錯誤或不具代表性的資料點)、使用更穩健的統計方法(例如,使用中位數而不是平均值)、或轉換資料以減少離群值的影響。具體選擇哪種方法取決於資料的性質和分析的目的。