PCA 特徵值怎麼決定保留幾個主成分?
某公司針對製程感測器資料進行主成分分析(PCA),經標準化與協方差矩陣分解後,得到三個主成分的特徵值如下:λ1=6.0,λ2=3.0,λ3=1.0。若團隊決定僅保留能解釋至少 80% 總變異量的主成分,以進行後續模型建構,下列哪一項敘述最合理且數據解讀正確?
一個公司做了 PCA 主成分分析,得到三個主成分,它們各自對應的特徵值是 6.0、3.0、1.0。現在要決定:只保留能「解釋至少 80% 總變異量」的主成分,問哪個判斷是正確的?
問你:根據這三個特徵值,保留哪幾個主成分才能達到 80% 的總變異量,而且推論正確?
一句話總結
λ1=6.0、λ2=3.0、λ3=1.0,總和 10.0:前兩個主成分解釋 (6+3)/10 = 90% 的總變異量,達到 80% 門檻,可以降維到二維,且仍保留了 90% 的資訊,答案是選項 A。
先感受問題:80 個感測器資料,如何只用兩個數字描述?
「智慧製造」公司的工程師吳明哲有一批資料:車間裡 80 個感測器每秒回傳溫度、壓力、震動、電流等數值,但他懷疑很多感測器測的是「同一件事」(高度相關),想把資料壓縮成更少的維度再做異常偵測。
他做了 PCA(主成分分析),拿到三個主成分的特徵值:
λ2 = 3.0(第二主成分)
λ3 = 1.0(第三主成分,解釋力最弱)
總和 = 10.0
問題:只保留前兩個主成分(降到 2D),丟掉第三個,會損失多少資訊?這樣做夠不夠?
計算:前兩個主成分解釋 (6.0 + 3.0) / 10.0 = 9/10 = 90% 的總變異量。目標是 80%,90% 超過門檻,所以降維到二維是合理的,還保留了 90% 的資訊。
其他敘述有什麼數據解讀錯誤?
- 錯誤解讀「第一主成分 60% → 線性關係」:第一主成分解釋 6/10 = 60% 是事實,但「解釋 60% 的變異量」不等於「資料有明顯線性關係」。PCA 的變異量解釋只告訴你主成分捕捉了多少資訊,不能推論資料的線性程度。
- 混淆「前兩個主成分的累積變異量」:累積 90%(= 前兩個),不是說第二主成分「佔 30%」就不能捨棄第三個。捨棄第三個只損失 10%,依然超過 80% 門檻。
- 誤以為三個特徵值「相差不大」:λ1=6.0、λ2=3.0、λ3=1.0,差距分別是 2 倍和 3 倍,並非「相差不大」。第一主成分的解釋力是第三主成分的 6 倍,差距顯著。
- 不清楚「80% 門檻」的計算方式:需要用「各主成分特徵值 / 全部特徵值總和」計算比例,而非直接用特徵值大小比較。
- 把「降維到 2D」和「保留線性結構」混淆:降維是減少維度,不一定代表資料是線性的;資料可以是非線性的,但 PCA 仍然能找到解釋最多變異量的方向。
計算各主成分解釋的變異量比例
吳明哲計算每個主成分解釋的比例:
PC1 解釋比例 = 6.0 / 10.0 = 60%
PC2 解釋比例 = 3.0 / 10.0 = 30%
PC3 解釋比例 = 1.0 / 10.0 = 10%
前兩個主成分累積解釋 = 60% + 30% = 90%
門檻要求:至少 80%
結論:保留前兩個主成分,累積解釋 90% ≥ 80%,達到門檻 ✓
他可以放心把 80 維的感測器資料降到 2 維,只損失 10% 的資訊(第三主成分),同時滿足「解釋至少 80% 總變異量」的要求。
這就是選項 A 講的:前兩個主成分合計解釋 90% 的總變異量,因此可安全降維至二維,且仍保留大部分資訊。
技術版:PCA 特徵值、解釋變異量與 Scree Plot
中級考試大概率會考程式碼跟公式,所以這部分你還是要學。但如果現在學起來很痛苦,可以先跳過,等讀完其他題目回頭再來。
想像 80 個感測器就像 80 個攝影機從不同角度拍同一個工廠。很多攝影機拍到的是相似的角度(高度相關),PCA 找到「最能代表整體變化」的幾個「最佳角度」。
特徵值代表每個「最佳角度」捕捉到多少原始資訊。λ1=6.0 代表第一個角度捕捉了最多信號,λ3=1.0 代表第三個角度捕捉的信號最少。捨棄 λ3,就像關掉那個只看到 10% 資訊的攝影機,影響不大。
| 白話說法 | 公式 |
|---|---|
| 第 i 個主成分解釋的變異量比例 | EVR_i = λᵢ / Σλⱼ |
| 前 k 個主成分的累積解釋變異量 | CEV_k = Σᵢ₌₁ᵏ λᵢ / Σλⱼ |
| 本題計算 | CEV_2 = (6+3)/(6+3+1) = 9/10 = 90% |
- λᵢ(特徵值 / Eigenvalue)
- 第 i 個主成分的方差,代表它捕捉了多少原始資料的變異性
- EVR(Explained Variance Ratio)
- 某個主成分解釋的變異量佔總變異量的比例
- CEV(Cumulative Explained Variance)
- 前 k 個主成分的累積解釋比例,決定保留幾個維度的依據
- Scree Plot
- 把特徵值從大到小畫成折線圖,「曲線轉折點(Elbow)」是常用的選擇 k 值依據
本題計算步驟:
λ1=6.0, λ2=3.0, λ3=1.0
總和 = 6.0 + 3.0 + 1.0 = 10.0
PC1 解釋比例 = 6.0 / 10.0 = 0.60 (60%)
PC2 解釋比例 = 3.0 / 10.0 = 0.30 (30%)
PC3 解釋比例 = 1.0 / 10.0 = 0.10 (10%)
累積解釋:
保留 PC1 只:60% → 低於 80% 門檻
保留 PC1+PC2:90% → 超過 80% 門檻 ✓
保留全部:100%
結論:保留前 2 個主成分,降維至 2D,
解釋 90% 總變異量(超過 80% 門檻)
- 如果門檻改為 95%,本題需要保留幾個主成分?
- 特徵值(Eigenvalue)和解釋變異量比例(EVR)有什麼關係?
- Scree Plot 的「轉折點」代表什麼,為什麼可以用來選 k?
- PCA 中「總特徵值」和「原始資料的總方差」有什麼關係?
- 如果資料沒有標準化就做 PCA,特徵值會有什麼問題?
為什麼其他選項是錯的
字面在說什麼:第一主成分解釋 60% 的變異量,代表資料有明顯線性結構,僅保留一維可避免過擬合。
為什麼不對:兩個錯誤:(1)第一主成分解釋 60% 是事實,但「解釋 60% 的變異量」和「資料呈現線性關係」是完全不同的概念,前者說的是資訊壓縮比,後者說的是資料的分布形狀。(2)60% 低於 80% 門檻,不符合「至少 80%」的要求,保留一維是不夠的。
誰會選錯:把「解釋變異量的比例」誤解為「描述資料線性程度的指標」的人,以及計算後沒確認是否達到 80% 門檻的人。
字面在說什麼:前兩個主成分雖然超過 80%,但第二主成分貢獻 30% 很高,所以應該保留第三主成分。
為什麼不對:邏輯錯誤。決定是否捨棄的依據是「累積解釋量是否達到門檻」,不是「某個主成分的個別貢獻是否很高」。前兩個主成分已達 90%,第三主成分只多貢獻 10%,捨棄它剩下 90%,依然超過 80% 門檻。選項 C 把「第二主成分 30%」(之所以貢獻高,代表它值得保留)誤解為「因此連第三個也要保留」,邏輯鏈斷裂。
誰會選錯:不了解「累積解釋量才是決策依據」,反而被個別主成分的比例迷惑的人。
字面在說什麼:6.0、3.0、1.0 相差不大,代表各主成分捕捉的變異量均勻,降維會損失太多。
為什麼不對:純粹的數據誤讀。λ1=6.0 是 λ3=1.0 的 6 倍,λ1 是 λ2 的 2 倍,這並非「相差不大」。而且三個主成分解釋 60%、30%、10%,差距很明顯,第一主成分的重要性遠大於第三個。捨棄 λ3 只損失 10%,遠非「損失太多」。
誰會選錯:不知道怎麼把特徵值換算成解釋比例,憑感覺說「6、3、1 沒差很多」的人。
同個考點下次怎麼變形
直覺:如果 λ1=5.0、λ2=2.5、λ3=2.5,前兩個主成分累積解釋量是多少?能達到 80% 嗎?
答案:總和 = 10.0。PC1 = 50%,PC2 = 25%,累積 = 75%,低於 80% 門檻。需要保留所有三個主成分(75% + 25% = 100%)才能超過 80%,或者接受 75% 的門檻只保留兩個。這道題說明了門檻數值的重要性,稍微改變特徵值分布就可能改變降維決策。
直覺:PCA 降維後,原始特徵(溫度、壓力等)還能直接解讀嗎?
答案:不能。PCA 的主成分是原始特徵的線性組合,通常沒有直觀的物理意義(「第一主成分 = 0.7 × 溫度 + 0.3 × 壓力 − 0.5 × 震動」很難解釋)。如果可解讀性很重要,應考慮其他降維方法(如 ICA 獨立成分分析)或直接用原始特徵配合特徵重要性篩選。
直覺:特徵值大小和原始資料的標準化有關係嗎?
答案:有直接關係。如果沒有標準化,量綱大的特徵(如「溫度,範圍 0-1000」)會主導 PCA,讓量綱小的特徵(如「電流,範圍 0-5」)幾乎被忽略,特徵值的分布會被少數量綱大的特徵決定。標準化(z-score)確保每個特徵的方差都是 1,PCA 才能公平比較所有特徵的貢獻。
直覺:在 NLP 中,PCA 也可以用在詞向量降維嗎?
答案:可以,但更常用 t-SNE 或 UMAP 做視覺化降維。PCA 是線性降維,對詞向量(高維、非線性結構)的效果有限。t-SNE 能保留局部鄰近結構,讓語意相近的詞在 2D 圖上聚在一起,比 PCA 更適合視覺化探索。但 PCA 的計算效率更高,常作為初步降維再接 t-SNE 的前處理。
直覺:除了「至少 80% 解釋變異量」,還有什麼方法決定保留幾個主成分?
答案:Scree Plot(碎石圖):把特徵值從大到小畫成折線,「曲線的轉折點(Elbow)」通常是最佳 k 值,轉折點後特徵值快速下降代表邊際貢獻快速縮小。Kaiser 法則:保留特徵值大於 1 的主成分(因為標準化後每個原始特徵方差為 1,特徵值小於 1 代表主成分解釋力甚至不如單一原始特徵)。下游任務導向:最終看加入或移除某個主成分後,分類或迴歸模型的效能是否有顯著改善。
想再往下看,這 5 個
- 主成分分析(PCA)本題核心:透過特徵值分解協方差矩陣,找到解釋最多變異量的方向,用於降維和特徵壓縮。
- 特徵值(Eigenvalue)PCA 中每個主成分對應的特徵值大小,直接決定該主成分能解釋多少原始資料的變異量。
- 特徵向量(Eigenvector)特徵值對應的方向向量,每個主成分就是沿著特徵向量方向的投影,定義了降維後的新座標軸。
- 降維處理(Dimensionality Reduction)PCA 是最常用的線性降維方法,決定保留幾個主成分就是在決定降到幾維,需要平衡資訊保留量和模型效率。
- 共變異數(Covariance)PCA 的計算基礎,協方差矩陣的特徵值分解產生主成分,反映原始特徵之間的線性相關結構。