iPAS AI 應用規劃師初級　科目一　人工智慧基礎概論

偏態分佈的特徵，要用哪種特徵工程處理？

原題 44

某零售業者建立顧客行為預測模型，資料集中包含「年消費金額」、「平均單筆交易金額」及「會員年資」等數值型特徵。資料分析顯示，部分金額特徵呈現高度偏態分佈，少數樣本的數值遠高於多數觀測值。為降低極端值對模型學習穩定性的影響，下列哪一種特徵工程方法最適合？

白話

一家零售業者建立顧客行為預測模型，資料集中包含年消費金額、平均單筆交易金額及會員年資等數值特徵。資料分析顯示，部分金額特徵呈現高度偏態分佈，少數樣本的數值遠高於多數觀測值。

問你：為降低極端值對模型學習穩定性的影響，哪一種特徵工程方法最適合？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

處理偏態分佈、壓縮極端大值的影響，對數轉換（Log Transformation）把「乘以10倍」壓縮成「加1格」，是最直接有效的方法。

02　情境

先感受問題：VIP 消費 100 萬，一般顧客 1 萬，模型怎麼學？

想像你是「好購物」電商的資料科學家。你手上有 10 萬個會員的年消費資料：

9 萬 5 千個人：年消費 3,000 到 30,000 元
4,500 個人：年消費 50,000 到 200,000 元
500 個 VIP：年消費 500,000 到 2,000,000 元

你要訓練一個「預測顧客明年是否會流失」的模型。問題來了：那 500 個消費 100 萬的 VIP，他們的數值在資料裡顯得特別突兀。模型在計算距離、誤差時，這幾個超大值佔的比重極高，造成模型「過度在意 VIP、忽視普通顧客」，最終對一般顧客的預測很差。

你需要一個方法，讓「100 萬」和「10 萬」的差距，在模型眼中不要那麼大。

03　對照

直接用原始數值的五個問題

極端值主導損失函數：模型訓練時計算誤差，100 萬的誤差比 1 萬的誤差大 100 倍，模型把大部分精力放在修正幾個 VIP 的預測
梯度爆炸風險：神經網路訓練時，過大的數值差距容易讓梯度變得極大或極小，訓練不穩定
距離計算失真：在 KNN 等基於距離的算法中，消費 1 萬和 1.1 萬的顧客感覺很近，但消費 50 萬和 100 萬的也算「很近」，直覺上說不通
特徵重要性被高估：數值範圍大的特徵會在線性模型中自動獲得更高的權重，不是因為它真的更重要
視覺化很難看：畫出來的分佈圖，90% 的資料點擠在左邊，極少數 VIP 在右邊拉出一條長尾，根本看不清楚多數人的分佈

「好購物」的工程師第一次建模，直接用原始金額，結果模型只能預測好 VIP 顧客的行為，普通顧客幾乎全猜錯。

04　解法

對數轉換怎麼解

對數轉換（Log Transformation）做的事很直觀：把原始數值取 log。

以「好購物」的資料為例，對數轉換後的效果：

消費 1,000 元 → log(1000) ≈ 3
消費 10,000 元 → log(10000) ≈ 4
消費 100,000 元 → log(100000) ≈ 5
消費 1,000,000 元 → log(1000000) ≈ 6

原始數值差了 1000 倍（1000 到 1,000,000），轉換後只差 3 格（3 到 6）。這讓 VIP 的極端值不再「壓垮」普通顧客的資料，模型可以均衡地學習所有人的行為模式。

對數轉換的另一個好處：它保留了排序關係（大的轉換後還是大），只是壓縮了差距，讓分佈從右邊長尾變成接近對稱的鐘形曲線。

轉換後再訓練模型，「好購物」的普通顧客流失預測準確率從 52% 提升到 79%。

這就是選項 A 講的：對數轉換（Log Transformation）。

技術版：偏態分佈與特徵工程在 AI 流程中的位置

偏態分佈（Skewed Distribution）是數值型特徵中最常遇到的問題，特別在金融、電商、醫療等涉及金額、次數、時間的場景。偏態有兩種：右偏（大多數值小，少數值極大）和左偏（大多數值大，少數值極小）。年消費金額是典型的右偏分佈。

對數轉換為什麼有效：數學上，log 函數的特性是「越大的值，壓縮幅度越大」。100 → 2，1000 → 3，10000 → 4，每增加 10 倍只加 1。這個「邊際效益遞減」的性質恰好符合現實直覺：消費從 1000 增加到 2000 的意義，和從 100000 增加到 101000 完全不同。

特徵工程在 AI 流程中的位置：特徵工程屬於「資料準備」階段，在模型訓練之前。它的目標是把原始資料轉換成最有利於模型學習的形式。常見的數值型特徵處理方法包括：標準化（Standardization）、正規化（Normalization）、對數轉換、Box-Cox 轉換、區間化。

什麼時候用對數轉換：資料呈現右偏分佈（長尾在右邊）、數值跨越幾個數量級（如從幾百到幾百萬）、特徵值全部為正數（對數轉換只適用正數）。

為什麼出題者要考這題：特徵工程是 AI 應用規劃師在實務中最常需要做的判斷之一。能不能在「偏態分佈」這個症狀描述下，正確識別「對數轉換」這個解法，是基本功。

05　陷阱

為什麼其他選項是錯的

B區間化（Binning）

字面在說什麼

把連續數值切成幾個區間，例如 0-10000 為「低消費」、10000-50000 為「中消費」、50000 以上為「高消費」，轉換成類別型特徵。

為什麼不對

區間化確實能消除極端值的影響（因為它把所有高消費都歸入同一個桶），但代價是損失了數值的細節資訊。消費 500,000 和 2,000,000 被合在同一個「高消費」桶，模型再也看不出差異。題目問的是「降低極端值影響」而非「消除數值差異」，對數轉換比區間化保留更多資訊。

誰會選錯

知道區間化可以處理極端值，但不清楚對數轉換更能保留數值差異的人。區間化適合的場景是「想把連續變數轉成類別」，不是「想壓縮偏態分佈」。

COne-hot 編碼（One-hot Encoding）

字面在說什麼

把類別型特徵（如顏色：紅/藍/綠）轉成 0/1 的二元向量：紅 = [1,0,0]、藍 = [0,1,0]、綠 = [0,0,1]。

為什麼不對

One-hot 編碼是處理類別型特徵的方法，用於把文字類別轉成數值讓模型能算。「年消費金額」是連續數值型特徵，不是類別，根本不適用 One-hot 編碼。對連續數值做 One-hot 完全是用錯工具。

誰會選錯

記住了「One-hot 是特徵工程的方法之一」但沒有搞清楚適用情境的人。特徵工程有很多方法，每種方法對應特定的資料型態，數值型和類別型的處理方式完全不同。

D隨機重抽樣（Random Resampling）

字面在說什麼

從資料集中隨機增加少數類別的樣本（過採樣）或減少多數類別的樣本（欠採樣），調整類別分佈的不平衡。

為什麼不對

隨機重抽樣解決的是類別不平衡問題（例如正常交易 99% vs 詐欺交易 1%），不是數值分佈偏態的問題。題目說的「部分金額特徵呈現高度偏態分佈」是連續數值的形狀問題，不是樣本數量的問題，重抽樣無法解決這個問題。

特徵工程（Feature Engineering）模型訓練前對原始資料進行轉換的過程，對數轉換是其中處理偏態分佈的核心手段，通常影響效能勝過模型選擇
特徵縮放（Feature Scaling）將不同量綱的特徵統一到同一尺度的技術，與對數轉換同屬數值型特徵前處理，易混淆但目的不同
獨熱編碼（One-hot Encoding）將類別型特徵轉換成多個 0/1 欄位，是類別型特徵的處理方法，常與對數轉換一起作為干擾選項
資料前處理（Data Preprocessing）涵蓋對數轉換、標準化、編碼等步驟的統稱，偏態分佈的處理屬於數值型特徵前處理的子項
正規化（Normalization）將數值縮放到 0-1 區間的方法，與對數轉換同樣處理數值範圍問題但機制不同，極端值存在時效果較差