iPAS AI 應用規劃師中級　科目三　機器學習技術與應用

PCA 特徵值怎麼決定保留幾個主成分？

原題 35

某公司針對製程感測器資料進行主成分分析（PCA），經標準化與協方差矩陣分解後，得到三個主成分的特徵值如下：λ1=6.0，λ2=3.0，λ3=1.0。若團隊決定僅保留能解釋至少 80% 總變異量的主成分，以進行後續模型建構，下列哪一項敘述最合理且數據解讀正確？

白話

一個公司做了 PCA 主成分分析，得到三個主成分，它們各自對應的特徵值是 6.0、3.0、1.0。現在要決定：只保留能「解釋至少 80% 總變異量」的主成分，問哪個判斷是正確的？

問你：根據這三個特徵值，保留哪幾個主成分才能達到 80% 的總變異量，而且推論正確？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

λ1=6.0、λ2=3.0、λ3=1.0，總和 10.0：前兩個主成分解釋 (6+3)/10 = 90% 的總變異量，達到 80% 門檻，可以降維到二維，且仍保留了 90% 的資訊，答案是選項 A。

02　情境

先感受問題：80 個感測器資料，如何只用兩個數字描述？

「智慧製造」公司的工程師吳明哲有一批資料：車間裡 80 個感測器每秒回傳溫度、壓力、震動、電流等數值，但他懷疑很多感測器測的是「同一件事」（高度相關），想把資料壓縮成更少的維度再做異常偵測。

他做了 PCA（主成分分析），拿到三個主成分的特徵值：

λ1 = 6.0（第一主成分，解釋力最強）
λ2 = 3.0（第二主成分）
λ3 = 1.0（第三主成分，解釋力最弱）
總和 = 10.0

問題：只保留前兩個主成分（降到 2D），丟掉第三個，會損失多少資訊？這樣做夠不夠？

計算：前兩個主成分解釋 (6.0 + 3.0) / 10.0 = 9/10 = 90% 的總變異量。目標是 80%，90% 超過門檻，所以降維到二維是合理的，還保留了 90% 的資訊。

03　對照

其他敘述有什麼數據解讀錯誤？

錯誤解讀「第一主成分 60% → 線性關係」：第一主成分解釋 6/10 = 60% 是事實，但「解釋 60% 的變異量」不等於「資料有明顯線性關係」。PCA 的變異量解釋只告訴你主成分捕捉了多少資訊，不能推論資料的線性程度。
混淆「前兩個主成分的累積變異量」：累積 90%（= 前兩個），不是說第二主成分「佔 30%」就不能捨棄第三個。捨棄第三個只損失 10%，依然超過 80% 門檻。
誤以為三個特徵值「相差不大」：λ1=6.0、λ2=3.0、λ3=1.0，差距分別是 2 倍和 3 倍，並非「相差不大」。第一主成分的解釋力是第三主成分的 6 倍，差距顯著。
不清楚「80% 門檻」的計算方式：需要用「各主成分特徵值 / 全部特徵值總和」計算比例，而非直接用特徵值大小比較。
把「降維到 2D」和「保留線性結構」混淆：降維是減少維度，不一定代表資料是線性的；資料可以是非線性的，但 PCA 仍然能找到解釋最多變異量的方向。

04　解法

計算各主成分解釋的變異量比例

吳明哲計算每個主成分解釋的比例：

總特徵值 = λ1 + λ2 + λ3 = 6.0 + 3.0 + 1.0 = 10.0

PC1 解釋比例 = 6.0 / 10.0 = 60%
PC2 解釋比例 = 3.0 / 10.0 = 30%
PC3 解釋比例 = 1.0 / 10.0 = 10%

前兩個主成分累積解釋 = 60% + 30% = 90%
門檻要求：至少 80%
結論：保留前兩個主成分，累積解釋 90% ≥ 80%，達到門檻 ✓

他可以放心把 80 維的感測器資料降到 2 維，只損失 10% 的資訊（第三主成分），同時滿足「解釋至少 80% 總變異量」的要求。

這就是選項 A 講的：前兩個主成分合計解釋 90% 的總變異量，因此可安全降維至二維，且仍保留大部分資訊。

技術版：PCA 特徵值、解釋變異量與 Scree Plot

中級考試大概率會考程式碼跟公式，所以這部分你還是要學。但如果現在學起來很痛苦，可以先跳過，等讀完其他題目回頭再來。

Step 1 純故事版

想像 80 個感測器就像 80 個攝影機從不同角度拍同一個工廠。很多攝影機拍到的是相似的角度（高度相關），PCA 找到「最能代表整體變化」的幾個「最佳角度」。

特徵值代表每個「最佳角度」捕捉到多少原始資訊。λ1=6.0 代表第一個角度捕捉了最多信號，λ3=1.0 代表第三個角度捕捉的信號最少。捨棄 λ3，就像關掉那個只看到 10% 資訊的攝影機，影響不大。

Step 2 公式對照

白話說法	公式
第 i 個主成分解釋的變異量比例	EVR_i = λᵢ / Σλⱼ
前 k 個主成分的累積解釋變異量	CEV_k = Σᵢ₌₁ᵏ λᵢ / Σλⱼ
本題計算	CEV_2 = (6+3)/(6+3+1) = 9/10 = 90%

Step 3 符號角色表

λᵢ（特徵值 / Eigenvalue）: 第 i 個主成分的方差，代表它捕捉了多少原始資料的變異性
EVR（Explained Variance Ratio）: 某個主成分解釋的變異量佔總變異量的比例
CEV（Cumulative Explained Variance）: 前 k 個主成分的累積解釋比例，決定保留幾個維度的依據
Scree Plot: 把特徵值從大到小畫成折線圖，「曲線轉折點（Elbow）」是常用的選擇 k 值依據

Step 4 計算範例

本題計算步驟：
λ1=6.0, λ2=3.0, λ3=1.0
總和 = 6.0 + 3.0 + 1.0 = 10.0

PC1 解釋比例 = 6.0 / 10.0 = 0.60 (60%)
PC2 解釋比例 = 3.0 / 10.0 = 0.30 (30%)
PC3 解釋比例 = 1.0 / 10.0 = 0.10 (10%)

累積解釋：
保留 PC1 只：60%  → 低於 80% 門檻
保留 PC1+PC2：90% → 超過 80% 門檻 ✓
保留全部：100%

結論：保留前 2 個主成分，降維至 2D，
      解釋 90% 總變異量（超過 80% 門檻）

Step 5 自我複述

如果門檻改為 95%，本題需要保留幾個主成分？
特徵值（Eigenvalue）和解釋變異量比例（EVR）有什麼關係？
Scree Plot 的「轉折點」代表什麼，為什麼可以用來選 k？
PCA 中「總特徵值」和「原始資料的總方差」有什麼關係？
如果資料沒有標準化就做 PCA，特徵值會有什麼問題？

05　陷阱

為什麼其他選項是錯的

選項 B　第一主成分 60% → 資料呈現明顯線性關係

字面在說什麼：第一主成分解釋 60% 的變異量，代表資料有明顯線性結構，僅保留一維可避免過擬合。

為什麼不對：兩個錯誤：（1）第一主成分解釋 60% 是事實，但「解釋 60% 的變異量」和「資料呈現線性關係」是完全不同的概念，前者說的是資訊壓縮比，後者說的是資料的分布形狀。（2）60% 低於 80% 門檻，不符合「至少 80%」的要求，保留一維是不夠的。

誰會選錯：把「解釋變異量的比例」誤解為「描述資料線性程度的指標」的人，以及計算後沒確認是否達到 80% 門檻的人。

選項 C　第二主成分 30% 很高，不宜捨棄第三主成分

字面在說什麼：前兩個主成分雖然超過 80%，但第二主成分貢獻 30% 很高，所以應該保留第三主成分。

為什麼不對：邏輯錯誤。決定是否捨棄的依據是「累積解釋量是否達到門檻」，不是「某個主成分的個別貢獻是否很高」。前兩個主成分已達 90%，第三主成分只多貢獻 10%，捨棄它剩下 90%，依然超過 80% 門檻。選項 C 把「第二主成分 30%」（之所以貢獻高，代表它值得保留）誤解為「因此連第三個也要保留」，邏輯鏈斷裂。

誰會選錯：不了解「累積解釋量才是決策依據」，反而被個別主成分的比例迷惑的人。

選項 D　三個特徵值相差不大，各主成分均勻

字面在說什麼：6.0、3.0、1.0 相差不大，代表各主成分捕捉的變異量均勻，降維會損失太多。

為什麼不對：純粹的數據誤讀。λ1=6.0 是 λ3=1.0 的 6 倍，λ1 是 λ2 的 2 倍，這並非「相差不大」。而且三個主成分解釋 60%、30%、10%，差距很明顯，第一主成分的重要性遠大於第三個。捨棄 λ3 只損失 10%，遠非「損失太多」。

誰會選錯：不知道怎麼把特徵值換算成解釋比例，憑感覺說「6、3、1 沒差很多」的人。

06　變形

同個考點下次怎麼變形

變形 1　邊界

直覺：如果 λ1=5.0、λ2=2.5、λ3=2.5，前兩個主成分累積解釋量是多少？能達到 80% 嗎？

答案：總和 = 10.0。PC1 = 50%，PC2 = 25%，累積 = 75%，低於 80% 門檻。需要保留所有三個主成分（75% + 25% = 100%）才能超過 80%，或者接受 75% 的門檻只保留兩個。這道題說明了門檻數值的重要性，稍微改變特徵值分布就可能改變降維決策。

變形 2　反例

直覺：PCA 降維後，原始特徵（溫度、壓力等）還能直接解讀嗎？

答案：不能。PCA 的主成分是原始特徵的線性組合，通常沒有直觀的物理意義（「第一主成分 = 0.7 × 溫度 + 0.3 × 壓力 − 0.5 × 震動」很難解釋）。如果可解讀性很重要，應考慮其他降維方法（如 ICA 獨立成分分析）或直接用原始特徵配合特徵重要性篩選。

變形 3　升級版

直覺：特徵值大小和原始資料的標準化有關係嗎？

答案：有直接關係。如果沒有標準化，量綱大的特徵（如「溫度，範圍 0-1000」）會主導 PCA，讓量綱小的特徵（如「電流，範圍 0-5」）幾乎被忽略，特徵值的分布會被少數量綱大的特徵決定。標準化（z-score）確保每個特徵的方差都是 1，PCA 才能公平比較所有特徵的貢獻。

變形 4　跨領域

直覺：在 NLP 中，PCA 也可以用在詞向量降維嗎？

答案：可以，但更常用 t-SNE 或 UMAP 做視覺化降維。PCA 是線性降維，對詞向量（高維、非線性結構）的效果有限。t-SNE 能保留局部鄰近結構，讓語意相近的詞在 2D 圖上聚在一起，比 PCA 更適合視覺化探索。但 PCA 的計算效率更高，常作為初步降維再接 t-SNE 的前處理。

變形 5　評估指標

直覺：除了「至少 80% 解釋變異量」，還有什麼方法決定保留幾個主成分？

答案：Scree Plot（碎石圖）：把特徵值從大到小畫成折線，「曲線的轉折點（Elbow）」通常是最佳 k 值，轉折點後特徵值快速下降代表邊際貢獻快速縮小。Kaiser 法則：保留特徵值大於 1 的主成分（因為標準化後每個原始特徵方差為 1，特徵值小於 1 代表主成分解釋力甚至不如單一原始特徵）。下游任務導向：最終看加入或移除某個主成分後，分類或迴歸模型的效能是否有顯著改善。

07　延伸

想再往下看，這 5 個

主成分分析（PCA）本題核心：透過特徵值分解協方差矩陣，找到解釋最多變異量的方向，用於降維和特徵壓縮。
特徵值（Eigenvalue）PCA 中每個主成分對應的特徵值大小，直接決定該主成分能解釋多少原始資料的變異量。
特徵向量（Eigenvector）特徵值對應的方向向量，每個主成分就是沿著特徵向量方向的投影，定義了降維後的新座標軸。
降維處理（Dimensionality Reduction）PCA 是最常用的線性降維方法，決定保留幾個主成分就是在決定降到幾維，需要平衡資訊保留量和模型效率。
共變異數（Covariance）PCA 的計算基礎，協方差矩陣的特徵值分解產生主成分，反映原始特徵之間的線性相關結構。