iPAS AI 應用規劃師中級　科目三　機器學習技術與應用

顧客流失模型對新會員預測不準，原因是什麼？

原題 28

一家零售電商公司希望建立顧客流失預測模型，用以判斷哪些會員可能在三個月內不再消費。團隊以去年會員資料進行訓練，並僅採用「曾經購買三次以上」的活躍顧客紀錄作為樣本。模型上線後，對全體會員進行預測時，發現模型對於新註冊會員與低消費會員的預測準確率明顯偏低。下列何者為造成此現象最可能的原因？

白話

一家電商公司建立顧客流失預測模型，訓練時只用了「購買三次以上」的活躍顧客資料。模型上線後對全體會員預測，卻發現對新註冊會員和低消費會員的準確率明顯偏低。

問你：訓練時只用活躍顧客，模型上線後對新會員和低消費會員預測不準，最可能的原因是什麼？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

模型對新會員和低消費會員預測不準，最可能的原因是：訓練樣本僅涵蓋高活躍顧客，造成取樣偏差（Sampling Bias）——模型從未見過「剛加入的新會員」或「偶爾消費的低活躍會員」長什麼樣，自然無法對他們做出準確預測。

02　情境

先感受問題：模型只認識老顧客

你是 PChome 線上購物的資料科學師。你的流失預測模型要找出「三個月內不再消費的會員」。為了資料品質，你訓練時只用了「過去一年購買三次以上」的活躍會員，共 50 萬筆。

模型上線了，你對全部 200 萬會員跑預測。結果發現：

對那 50 萬活躍老顧客，預測準確率 89%——還不錯。
對 80 萬新會員（剛加入半年，購買次數 0-2 次），準確率只有 51%——跟猜差不多。

問題很清楚：模型訓練時從來沒見過「只購買 0-2 次的會員」的樣本，它的學習完全基於「活躍老顧客的行為模式」。當你拿它去預測行為模式完全不同的新會員，它就像一個只認識 40 歲以上顧客的業務員，被要求去服務 20 歲大學生——不是不努力，是根本沒有這個族群的知識。

03　對照

取樣偏差如何悄悄發生

篩選條件不代表目標母體：「購買三次以上」是人為的篩選條件，但模型要服務的對象是「全體會員」。訓練集的母體（活躍會員）和目標母體（全體會員）不一致，就產生取樣偏差。
少數族群被系統性排除：新會員、低消費會員因為「不符合篩選條件」從未出現在訓練集中，模型對這些族群一無所知。
模型學到的是「活躍者的流失規律」：活躍老顧客的流失原因（例如品質下降、競品更優惠）跟新會員流失的原因（例如首次體驗不佳、忘記帳號）可能完全不同。
看起來高準確率的假象：如果你只用活躍會員評估，模型看起來準確率很高；直到上線面對全體會員才發現問題，這時修正成本已經很高。
商業影響嚴重：新會員通常是最需要關注的高流失風險族群，模型偏偏對他們失效，行銷部門按模型排優先順序，結果遺漏了最重要的挽留目標。

04　解法

怎麼修正取樣偏差

PChome 的資料科學師發現問題後，採取以下修正方向：

擴大訓練樣本：把「購買 0-2 次」的會員也納入訓練集，確保訓練集能代表目標母體（全體會員）的行為多樣性。
分層取樣（Stratified Sampling）：按購買次數分層（0 次、1 次、2 次、3+ 次），確保每個層的比例在訓練集中被合理代表，而非讓多數族群淹沒少數族群。
建立分族群模型：對新會員（購買 0-1 次）建立專屬的流失預測模型，特徵設計也專注於新會員的早期行為信號（如首購後回購間隔、瀏覽類別多樣性）。
定期驗證目標母體代表性：每季比對訓練集分佈和當前全體會員分佈，當分佈偏移（PSI 增高）時，主動更新樣本。

這就是選項 C 講的：訓練樣本僅涵蓋高活躍顧客，造成取樣偏差（Sampling Bias）。

技術版：取樣偏差在機器學習中的位置與類型

取樣偏差（Sampling Bias）屬於資料偏見（Data Bias）範疇，是機器學習公平性與可靠性的核心問題之一。

在 AI 領域的位置：偏差問題發生在機器學習流程的「資料收集」和「樣本選擇」環節，是最難事後修正的問題之一——因為模型一旦訓練完成，它的「世界觀」就已經被偏差的訓練資料塑造了。

常見取樣偏差類型：

選擇偏差（Selection Bias）：本題的情況，特定條件過濾掉了重要子群體。
倖存者偏差（Survivorship Bias）：只觀察「成功案例」，忽略失敗案例，例如只用「留存客戶」訓練流失模型。
自選擇偏差（Self-Selection Bias）：調查中只有主動回應的人提供資料，回應者本身就是特殊族群。
時間偏差（Temporal Bias）：訓練資料只涵蓋特定時間段，遇到季節性或市場變化就失效。

為什麼出題者要考這題：取樣偏差是 AI 公平性問題的重要來源，也是實際部署後失效最常見的根因之一。能從「訓練集篩選條件」直接診斷「取樣偏差」，是中級 ML 實務能力的核心。

05　陷阱

為什麼其他選項是錯的

A特徵設計未排除與會員忠誠度高度相關的變數，導致特徵偏差（Feature Bias）

字面在說什麼

如果特徵中包含「累計購買次數」這種高度代理忠誠度的變數，模型可能學到的是「誰是活躍會員」而不是「誰會流失」。

為什麼不對

特徵偏差確實是真實問題，但題目強調的是「訓練樣本僅用活躍顧客」這個資料選擇問題。即使特徵設計完美，樣本本身不代表目標母體，模型對新會員仍然沒有學習基礎。根本原因是取樣問題，特徵設計是第二層問題。

誰會選錯

熟悉「特徵工程」但不熟悉「取樣設計」重要性的人，容易把問題歸因到特徵層面。題目已明確告訴你「訓練樣本的篩選條件」，這就是取樣問題的明確指向。

B標記（Label）由人工標註，導致標籤偏差（Label Bias）

字面在說什麼

標籤偏差是人工標注時標注者帶入主觀偏見，讓不同族群的標籤品質不一致。

為什麼不對

題目的標籤是「三個月內是否消費」，這是客觀的系統紀錄（消費發生了就是 1，沒發生就是 0），不是人工標注，根本不會有標注者帶入偏見的空間。標籤偏差通常發生在情感分析、毒性偵測等需要人工判斷的任務中。

誰會選錯

記得「偏差有很多種」但沒仔細看題目標籤是客觀紀錄還是主觀標注的人。

D模型未進行超參數調整，導致過擬合（Overfitting）

字面在說什麼

過擬合是模型在訓練集上太好，在新資料上表現差，沒調超參數可能加重這個問題。

為什麼不對

過擬合的症狀是「訓練集誤差低、測試集誤差高」，而且測試集要與訓練集同分佈。但題目說的是「對特定族群（新會員、低消費會員）預測不準」——這是一個「次群體失效」問題，不是整體測試集誤差偏高。取樣偏差導致的次群體失效，即使調了超參數也無法解決，因為問題在資料而不在模型架構。

誰會選錯

看到「預測不準」就聯想到「模型問題 → 過擬合 → 調超參數」的人。記住：如果模型從未見過某類樣本，無論怎麼調超參數都無法讓它學到那類樣本的規律。

06　變形

同個考點下次怎麼變形

變形 1

倖存者偏差在 AI 訓練資料中怎麼出現？

直覺

「只觀察成功案例」就是倖存者偏差，在 ML 資料中很常見嗎？

答案

非常常見。例如：（1）用「成功上市公司」資料訓練企業估值模型，忽略了大量倒閉的公司；（2）用「成功貸款還清」的顧客訓練風控模型，沒有「被拒絕貸款」的顧客資料（因為他們根本沒機會出現在資料集中）；（3）用「高活躍使用者」訓練推薦模型，低活躍使用者的行為偏好完全沒被學習。

變形 2

怎麼檢查訓練集是否對目標母體有代表性？

直覺

部署前要如何事先發現取樣偏差，而不是等到模型上線才知道？

答案

（1）比對關鍵特徵的分佈：比較訓練集和目標母體在年齡、地區、購買頻次等關鍵維度上的分佈是否一致；（2）次群體效能分析（Subgroup Analysis）：在不同子群體上分別評估模型效能，看是否某些群體表現特別差；（3）協變數偏移檢測（Covariate Shift Detection）：用統計檢定（如 KS 檢定、MMD）比較訓練集和部署集的分佈差異；（4）使用 PSI 定期監控特徵分佈變化。

變形 3

AI 公平性（Fairness）和取樣偏差有什麼關係？

直覺

聽說 AI 對某些族群「不公平」，這和取樣偏差有關嗎？

答案

直接相關。取樣偏差是 AI 不公平性最常見的技術根因之一：訓練資料中「少數族群」（例如特定年齡層、地區、種族）的樣本量不足或完全缺乏，模型對這些族群的預測能力天然較差，導致系統性歧視。解法包括：（1）確保訓練資料對目標族群有充分覆蓋；（2）對少數族群做過採樣（Oversampling）或加權；（3）定期審查模型在不同族群上的效能。

變形 4

過採樣（Oversampling）和欠採樣（Undersampling）有什麼差別？

直覺

為了解決類別不平衡或取樣偏差，兩種方向都能讓資料「更平衡」，差別在哪？

答案

過採樣（Oversampling）：複製少數類別的樣本（或用 SMOTE 生成合成樣本），讓少數類增加。好處是不丟棄資料；風險是可能導致過擬合（重複的樣本）。欠採樣（Undersampling）：刪除多數類別的部分樣本，讓多數類減少。好處是訓練速度快；風險是浪費有效資料、可能讓模型損失重要的多數類資訊。實務中常用 SMOTE + 適度欠採樣的組合策略。

變形 5

什麼情況下「只用高活躍顧客訓練」是合理的設計決策？

直覺

有時候這個篩選條件是有意義的，不一定是問題。

答案

如果模型的部署目標就是「預測活躍顧客是否流失」（例如高價值會員挽留計畫），那麼只用活躍顧客訓練是合理的——訓練集的母體和目標母體一致。問題發生在「把為活躍顧客設計的模型，拿去預測全體會員」時——目標母體擴大了，但訓練集母體沒有跟著擴大。設計 ML 系統時，MUST 明確定義「這個模型要預測誰」，並確保訓練集代表這個群體。

07　延伸

想再往下看，這 5 個

AI 偏見（Bias in AI）取樣偏差是 AI 偏見最常見的技術根源，理解 Bias in AI 的類型有助於系統性預防。
監督式學習（Supervised Learning）流失預測是典型的監督式學習問題，取樣偏差會直接影響模型的泛化邊界。
資料不平衡（Data Imbalance）取樣偏差常與類別不平衡同時出現，少數族群既代表性不足又樣本量少。
演算法偏見（Algorithmic Bias）資料偏差透過演算法學習後形成演算法偏見，在部署時對特定族群產生系統性不公平。
機器學習（Machine Learning）取樣偏差是所有 ML 系統設計必須面對的基礎問題，「垃圾進、垃圾出」是 ML 最重要的實務原則之一。