iPAS AI 應用規劃師 中級 科目二 大數據處理分析與應用

PCA 前為何要先標準化?交易金額主導主成分的問題

原題 29

某團隊在開發風險評估模型時,使用主成分分析(Principal Component Analysis, PCA)進行降維。輸入資料包含三個數值欄位:「交易金額(單位:新台幣)」、「交易次數(次/月)」與「年齡(歲)」,其數值量級分別約為 10^5、10^1 與 10^2。分析人員直接將原始數據帶入 PCA,結果第一主成分(PC1)幾乎完全由「交易金額」主導。下列哪一項作法或判斷最合理?

白話

一個團隊在做 PCA 降維時,把三個欄位直接丟進去:交易金額(約 10 萬元量級)、交易次數(約 10 次量級)、年齡(約 100 歲量級)。結果第一主成分幾乎只反映交易金額,其他兩個欄位的資訊被淹沒了。

問你:面對不同數值量級的特徵直接跑 PCA 導致主成分偏斜,最合理的解決方式是什麼?

點選你的答案。

01 總結

一句話總結

PCA 用共變異數矩陣找主成分,數值大的特徵必然主導方差,讓 PCA 偏向它。解決方法是:在進行 PCA 前先進行標準化(Standardization),讓每個特徵的平均值為 0、標準差為 1,消除尺度差異的影響

02 情境

先感受問題:100,000 和 20 放在一起,誰會被 PCA「看見」

安泰金融的資料分析師書豪要建立客戶風險評估模型,特徵有三個:

交易金額:平均 100,000 元,標準差 50,000 元(量級 10^5)
交易次數:平均 15 次,標準差 8 次(量級 10^1)
年齡:平均 42 歲,標準差 15 歲(量級 10^2)

書豪直接把這三個欄位丟進 PCA。PCA 計算的是「哪個方向解釋最多的方差」。

交易金額的方差 = 50,000² = 2,500,000,000,交易次數的方差 = 8² = 64,相差 4 千萬倍。PCA 在尋找「最大方差方向」時,交易金額的巨大方差完全主宰結果,第一主成分幾乎只沿著「交易金額」這個軸。

年齡和交易次數的資訊,在數值龐大的金額面前,幾乎完全不可見。

03 對照

不標準化直接做 PCA,會踩哪些坑

  1. 主成分被單一特徵壟斷:量級大的特徵方差遠大於其他特徵,PCA 「眼中」只有這個特徵,其他特徵的資訊幾乎不進入前幾個主成分。
  2. 降維沒有達到原始目的:PCA 降維的目的是「用少數維度保留最多資訊」,如果「最多資訊」都是量級偏差造成的假象而非真實的資料結構,降維結果毫無意義。
  3. 風險模型失去重要特徵:年齡和交易次數在風險評估上可能比金額更重要(例如高頻交易者風險更高),但它們的資訊被金額的尺度效應淹沒,模型看不到這些信號。
  4. 主成分解釋性喪失:標準化後的 PCA 主成分可以解釋為「哪些特徵的組合模式」,但不標準化的 PCA 主成分只是「哪個特徵的絕對量大」,沒有實質的分析意義。
  5. 模型無法公平對待所有特徵:如果後續還有其他機器學習模型,帶有量級偏差的 PCA 特徵會讓那些模型也受到同樣的尺度效應影響,問題一路傳遞下去。
04 解法

標準化後再 PCA:讓三個特徵站在同一個尺度上競爭

書豪對三個欄位做 Z-score 標準化:

交易金額標準化後:均值 0,標準差 1
交易次數標準化後:均值 0,標準差 1
年齡標準化後:均值 0,標準差 1

現在三個特徵的方差都是 1,PCA 在尋找「最大方差方向」時,每個特徵有公平的機會貢獻到主成分中。

標準化後重跑 PCA,第一主成分可能是「交易次數 + 年齡」的某種線性組合,第二主成分可能是「交易金額 - 年齡」,這樣的主成分才有真實的業務意義,能幫助風險模型捕捉複合風險模式。

這就是選項 D 講的:在進行 PCA 前應先進行標準化(Standardization),以避免因數值尺度差異造成特徵偏誤

技術版:PCA 與標準化的數學關係,以及何時不需要標準化

PCA 有兩個版本:基於共變異數矩陣(Covariance Matrix)和基於相關係數矩陣(Correlation Matrix)。

  • 共變異數 PCA(原始數據):直接用數值的共變異數,方差大的特徵天然主導,適合所有特徵量級相同的情況(例如:所有特徵都是同單位的物理量)。
  • 相關係數 PCA(標準化數據):先標準化讓每個特徵方差為 1,等效於在相關係數矩陣上做 PCA,讓特徵在貢獻度上公平競爭,適合特徵量級不同的情況。

什麼情況下不需要標準化:如果所有特徵的量級相同,或者業務上確實認為「量級大的特徵應該有更大的影響」,可以不標準化。例如:分析同種貨幣的不同商品價格時,量級差異可能有業務意義。

標準化 vs 正規化:

  • 標準化(Standardization / Z-score):轉換成均值 0、標準差 1。不把值壓縮到固定範圍,對離群值較穩健。PCA 前標準作法。
  • 正規化(Normalization / Min-Max):把值壓縮到 [0,1]。對離群值敏感,適合神經網路等需要固定輸入範圍的模型,不適合 PCA 前處理(離群值會壓縮其他值的分佈)。

為什麼 iPAS 考這題:PCA 是降維的標準工具,「標準化是 PCA 的必要前置步驟」是機器學習資料前處理的基礎知識,也是 iPAS 考試中最常見的 PCA 考點之一。

05 陷阱

為什麼其他選項是錯的

A這是正常現象,金額本身變異較大,應主導主成分

字面在說什麼

金額變異本來就大,讓它主導主成分是合理的。

為什麼不對

交易金額的大變異,很大程度上是「單位選擇」(新台幣 vs 千元 vs 萬元)的人為因素造成,不代表它在業務上真的比交易次數或年齡更重要。如果把金額單位改成「萬元」,它的方差立刻縮小 10,000 倍,主成分結構就完全不同了。良好的 PCA 不應該因為單位選擇而改變結果,這就是為什麼標準化是必要的。

誰會選錯

直觀上認為「高變異 = 重要」的人。高變異可能是真實的資訊量,也可能是量級的人為效應。PCA 前標準化是為了確保我們捕捉的是前者,而非後者。

B若改用特徵選擇法,可自動解決變數量級問題

字面在說什麼

換成特徵選擇法(Feature Selection),量級問題就不存在了。

為什麼不對

特徵選擇(Feature Selection)是選擇保留哪些原始特徵,不改變特徵的量級;它解決的是「哪些特徵有用」的問題,不是「特徵尺度不一致」的問題。量級差異的問題存在於任何基於距離或方差的方法中,包括 PCA、KNN、SVM 等,特徵選擇不能解決這個問題。

誰會選錯

把「特徵選擇」和「特徵縮放(Feature Scaling)」混為一談的人。兩個是完全不同的預處理步驟,解決不同的問題。

C可刪除「交易金額」欄位以平衡各主成分的影響

字面在說什麼

金額主導了主成分,那就把金額欄位刪掉,平衡一下。

為什麼不對

刪除特徵是信息損失,交易金額對風險評估有重要意義,直接刪除會讓模型失去重要的預測信號。問題不是「交易金額不重要」,而是「交易金額的尺度干擾了 PCA 的方向選擇」。正確做法是標準化,讓金額的尺度不再有不當的主導優勢,而不是直接把這個特徵丟掉。

誰會選錯

以「去掉干擾因素」的直覺解決問題,卻沒意識到刪除特徵和縮放特徵是完全不同的操作,而且刪除有資訊損失的代價。

06 變形

同個考點下次怎麼變形

變形 1

PCA 降維後,主成分的「解釋方差比例」是什麼意思?

直覺

PCA 輸出說「PC1 解釋了 72% 的方差」,這什麼意思?

答案

解釋方差比例(Explained Variance Ratio)是「這個主成分所含的方差量 / 全部特徵的總方差量」。PC1 解釋 72% 代表第一主成分捕捉了原始資料 72% 的變化量,保留前幾個主成分直到累積解釋方差達到 90-95%,通常就夠用。這個指標幫助決定保留幾個主成分。

變形 2

PCA 和 t-SNE 在降維目的上有什麼根本不同?

直覺

兩個都能把高維資料降到 2D,有什麼差別?

答案

PCA 是線性降維,保留整體方差結構,生成的主成分是原始特徵的線性組合,可以解釋「哪些特徵組合重要」,也可以還原回原始空間。t-SNE 是非線性降維,專門優化鄰近點關係的保留,適合視覺化聚類結構,但主成分無法解釋,也無法還原。PCA 用於機器學習前的降維,t-SNE 主要用於探索性視覺化。

變形 3

什麼時候選 PCA 降維,什麼時候選特徵選擇法?

直覺

兩個都能「減少特徵數量」,怎麼選?

答案

PCA 把原始特徵轉換成新的主成分(線性組合),適合需要消除特徵之間的相關性(共線性)、或整體降低維度的場景,但主成分不易直接業務解釋。特徵選擇保留原始特徵的一個子集,主成分仍是原來的欄位名稱,業務解釋性更高。需要模型可解釋性時選特徵選擇;需要消除共線性或最大化降維時選 PCA。

變形 4

標準化應該用訓練集還是全部資料的均值和標準差?

直覺

標準化要計算均值和標準差,應該用哪些資料計算?

答案

MUST 只用訓練集計算均值和標準差(fit on training set),然後用這組參數轉換測試集(transform test set)。如果用全部資料(含測試集)計算,測試集的資訊「洩漏」進了前處理步驟,這是數據洩漏(Data Leakage),會讓模型效能評估過於樂觀。

變形 5

如果只有一個特徵的量級很大,是否可以只對那個特徵做對數轉換而不是全部標準化?

直覺

只有金額量級大,對金額做 log 轉換是否等效於標準化?

答案

對數轉換和標準化是不同的操作,不等效。對數轉換改變分佈形狀(可能讓長尾變常態),標準化只改變位置和尺度(不改變形狀)。對數轉換後的金額雖然量級縮小了,但與其他特徵的尺度仍可能不一致。最穩健的做法是:先做領域相關的轉換(如對數轉換),再做標準化,確保所有特徵同尺度。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 114 年第二梯次 iPAS AI 應用規劃師 中級 科目二 大數據處理分析與應用 第 29 題

查看官方原文 PDF