多檔股票相關性最適合用哪種圖?
某投資研究員希望分析四檔科技類股(A、B、C、D)每日報酬率的變化趨勢,以判斷這些股票之間是否存在高度相關性與共變動性,並評估投資組合分散風險的程度。若研究員希望以單一圖表快速呈現各股票間的關聯強度與方向,下列哪一種視覺化呈現方式最適合?
一位投資研究員要分析四檔科技股的每日報酬率,想了解這四檔股票彼此之間有多相關、是否同漲同跌,以評估投資組合的分散風險效果。他希望用一張圖就能看出所有股票兩兩之間的關聯強度和方向。
問你:哪一種視覺化方式最適合在單一圖表中呈現多個變數之間的關聯強度與方向?
一句話總結
要在單一圖表中展示多個變數兩兩之間的關聯強度與方向,最適合的工具是:熱力圖(Heatmap)配合相關係數矩陣(Correlation Matrix)。色彩深淺代表相關強度,正負號代表方向,一眼可看完所有組合。
先感受問題:四檔股票怎麼看「兩兩之間都相不相關」
鉅亨投資的分析師怡君手上有四檔科技股:聯發科(A)、台積電(B)、鴻海(C)、廣達(D),共 250 個交易日的每日報酬率資料。
她的問題是:這四檔股票是同漲同跌,還是各自獨立?如果 A 跟 B 高度相關,把兩者都放在組合裡分散效果就很差;如果 A 跟 C 幾乎不相關,才能真正分散風險。
四檔股票之間有 6 個「兩兩組合」(AB、AC、AD、BC、BD、CD)。怡君需要一個能一次呈現全部 6 個關聯強度的圖,而不是畫 6 張圖分別看。
不用相關矩陣時,分析師面臨哪些困境
- 散佈圖只能看一對:每張散佈圖只呈現兩個變數的關係,四檔股票需要 6 張圖,讀者要在 6 張圖間比較相關強度,很難一眼判斷哪對最高。
- 直方圖看不出相關性:直方圖只展示單一變數的分佈(報酬率高低的頻率),根本不包含兩個變數之間的關聯資訊,完全不是用來看相關性的工具。
- 折線圖難以量化關聯:雙軸折線圖可以大略看出兩個變數是否同向,但多軸折線圖視覺上容易混淆,且「看起來同向」不等於統計上顯著相關,也無法量化強度。
- 無法快速比較所有組合:四個變數,6 個組合,要逐一查閱才能找出「哪對最相關、哪對最獨立」,決策效率極低。
- 缺乏數值支撐的視覺判斷不可靠:純靠圖形形狀判斷相關性,觀察者的主觀偏差會影響結論,需要統計量(相關係數)作為客觀依據。
相關係數矩陣熱力圖:一張圖看完所有兩兩關聯
怡君計算了四檔股票的皮爾森相關係數矩陣(Pearson Correlation Matrix),得到一個 4×4 的矩陣,裡面每個格子代表兩檔股票的相關係數(範圍 -1 到 +1)。
再把這個矩陣畫成熱力圖:
- 深紅色格子(係數接近 +1):高度正相關,同漲同跌
- 深藍色格子(係數接近 -1):高度負相關,一漲一跌
- 白色/淺色格子(係數接近 0):幾乎不相關,可有效分散風險
- 對角線全是深紅色(每股跟自己的相關係數 = 1)
一張 4×4 的熱力圖,6 個有意義的格子,一眼就能看出哪對股票高度相關(聯發科和台積電深紅)、哪對低相關(鴻海和廣達淺色),立刻做出組合決策。
這就是選項 D 講的:熱力圖(Heatmap)配合相關係數矩陣(Correlation Matrix)。
技術版:相關係數矩陣熱力圖在資料分析中的實務位置
相關係數矩陣熱力圖(Correlation Matrix Heatmap)是探索性資料分析(Exploratory Data Analysis,EDA)中最常用的多變數關係可視化工具,應用場景橫跨金融、基因組學、機器學習特徵選擇等領域。
核心統計量:皮爾森相關係數(Pearson Correlation Coefficient,r)的範圍是 [-1, 1]:
- r 接近 +1:強正相關(同漲同跌)
- r 接近 -1:強負相關(一漲一跌)
- r 接近 0:線性無相關(獨立)
在機器學習流程中,相關矩陣熱力圖被用來做特徵選擇:兩個特徵之間相關係數 > 0.9,通常只保留一個(避免多重共線性)。這是特徵工程前的標準 EDA 步驟。
跟相關工具的對比:
- vs. 散佈圖矩陣(Scatter Plot Matrix):散佈圖矩陣同樣能看兩兩關係,但呈現的是原始散點分佈,需要讀者自己判斷形狀。相關矩陣熱力圖直接把強度量化成數字和色彩,更快速。
- vs. 斯皮爾曼相關係數(Spearman):皮爾森假設線性關係且資料近常態;斯皮爾曼用秩次計算,適合非線性或非常態資料。
為什麼 iPAS 考這題:資料科學家需要快速識別哪種視覺化工具適合哪種分析需求。相關矩陣熱力圖是「多變數相關性一覽」的標準工具,在風險分析、投資組合優化、機器學習特徵分析中極為常見。
為什麼其他選項是錯的
A為每檔股票各自繪製直方圖(Histogram)以比較報酬率分佈
每檔股票畫一個直方圖,看看各自的報酬率集中在哪裡。
直方圖只展示單一變數的頻率分佈(報酬率出現的次數多寡),完全不包含兩個變數之間的關係資訊。用直方圖看不出 A 股和 B 股是不是同漲同跌,它只告訴你每檔股票自己的報酬率長什麼形狀。
把「看分佈」和「看關聯」混為一談的人。分佈(Distribution)是單變數概念,關聯(Correlation)是多變數概念,兩者需要不同的圖表工具。
B針對任兩檔股票繪製散佈圖並加上趨勢線(Regression Line)
把兩檔股票的報酬率各自當 X 軸和 Y 軸,畫散佈圖加趨勢線,能看出兩者關係。
散佈圖加趨勢線確實能看出兩個變數的關聯,但四檔股票之間有 6 個兩兩組合,需要畫 6 張散佈圖。題目要求「單一圖表快速呈現各股票間的關聯強度與方向」,6 張圖明顯不是「單一圖表」,而且在多張散佈圖之間比較強度也不直觀。
散佈圖確實是看相關性的工具,這個方向沒錯,但沒注意到題目說「單一圖表呈現所有關聯」。四個以上變數的兩兩關係,相關矩陣熱力圖才是正確選擇。
C使用雙軸折線圖(Dual-axis Line Chart)同時顯示四檔股價變化
用兩條 Y 軸的折線圖同時顯示多檔股票,可以比較走勢是否同向。
雙軸折線圖最多放兩條 Y 軸,難以同時顯示四檔股票;即使做到,視覺上的「看起來同向」不等於統計上的相關係數,無法量化關聯強度。而且折線圖呈現的是時間序列趨勢,不是變數間的相關結構。
認為「折線圖能看出股票走勢是否同步」的人。走勢同步和統計相關性是不同層次的概念,後者需要計算相關係數,不能靠視覺判斷線條形狀。
同個考點下次怎麼變形
機器學習特徵選擇時,如何用相關係數矩陣決定刪除哪些特徵?
特徵之間高度相關是問題嗎?
兩個特徵相關係數 > 0.9,代表它們提供的資訊高度重疊,保留兩個對模型沒有額外幫助,反而可能造成多重共線性(對線性回歸、邏輯回歸尤其有影響)。通常保留一個、刪除另一個。相關矩陣熱力圖能快速定位需要處理的「強相關特徵對」。
相關係數接近 0 代表兩個變數完全獨立嗎?
係數 = 0,不就是沒關係?
相關係數只衡量「線性」關係。係數 = 0 只代表沒有線性關聯,兩個變數可能存在曲線型(非線性)關係,例如 U 型或倒 U 型。判斷完全獨立需要更深入的分析,例如繪製散佈圖或做非線性相關性檢定。
投資組合要分散風險,應選相關係數高還是低的資產組合?
同漲同跌的資產放在一起不是更好嗎?
應選相關係數低(接近 0 或負值)的資產組合。若兩資產高度正相關,市場下跌時兩者同時損失,沒有分散效果。相關係數低甚至負值的資產組合,一個跌另一個可能漲,整體組合波動性下降,這正是現代投資組合理論(Modern Portfolio Theory)的核心。
皮爾森相關係數和斯皮爾曼相關係數,應用場景有什麼不同?
兩個都是「相關係數」,是同一種東西嗎?
皮爾森衡量線性關係,假設資料近常態分佈、無極端值;斯皮爾曼用秩次(排名)計算,不假設分佈形狀,適合非線性關係或有離群值的資料。股票報酬率如果有明顯尖峰或厚尾分佈,斯皮爾曼更穩健;資料接近常態時兩者結果相近。
散佈圖矩陣(Scatter Plot Matrix / Pairplot)和相關矩陣熱力圖各適合什麼情境?
兩個都能看兩兩關係,有什麼差別?
散佈圖矩陣呈現原始資料點,能看出關係的形狀(線性、曲線、群集),但變數多時圖很複雜、難以快速比較強度。相關矩陣熱力圖把強度量化成係數和色彩,更快速比較哪對最強,但犧牲了形狀資訊。探索階段用散佈圖矩陣,需要快速決策或報告時用熱力圖。
想再往下看,這 5 個
- 相關係數(Correlation)衡量兩個變數線性關聯強度與方向的統計量,是相關矩陣熱力圖每個格子的核心數值。
- 資料視覺化(Data Visualization)把數據轉成圖形讓人快速理解,熱力圖是多變數關聯視覺化的標準工具之一。
- 共變異數(Covariance)衡量兩個變數是否同向變動的原始量,相關係數是共變異數除以兩者標準差的標準化版本。
- 降維處理(Dimensionality Reduction)把高維特徵壓縮成少數主要維度,相關矩陣分析是降維前的重要前置步驟。
- 描述性統計(Descriptive Statistics)用均值、標準差、相關係數等量概括資料特性,相關矩陣屬於多變數描述性統計的一環。