iPAS AI 應用規劃師中級　科目三　機器學習技術與應用

貝氏定理如何預測購買機率？

原題 22

某電商平台希望預測顧客是否會購買特定商品。系統蒐集顧客的瀏覽紀錄、停留時間、商品類別偏好與過去購買行為，並以此推估「在觀察到這些行為特徵的情況下，該顧客會購買的機率」。若模型採用貝氏定理（Bayes' Theorem）進行推論，下列敘述何者最符合其核心運作機制？

白話

一個電商平台收集了顧客的瀏覽紀錄、停留時間、商品偏好、購買歷史等行為特徵，想用這些資訊來估算「在這些行為條件下，顧客購買的機率」。模型採用貝氏定理進行推論。

問你：貝氏定理在這個購買機率預測中的核心運作機制是什麼？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

貝氏定理的核心是：以條件機率方式計算顧客屬於「會購買」或「不會購買」的分類機率，即在已觀察到行為特徵的條件下，利用先驗知識更新對購買類別的後驗機率估計。

02　情境

先感受問題：知道顧客在看什麼，能推算他買不買嗎？

你是 momo 購物網的資料科學師。你看到一個顧客的行為紀錄：他今天在「AirPods Pro」頁面停留了 8 分鐘，點開了 3 則評論，但還沒加入購物車。這是「會買」還是「不會買」？

直覺上你知道：過去有類似行為的顧客中，大約有 40% 最後有買。但今天這個顧客比平均多停留了一倍時間。這個額外資訊讓你把機率往上修正到 60% 嗎？

這種「根據新觀察到的行為，持續更新機率估計」的推理方式，就是貝氏定理的核心。

03　對照

沒有貝氏推論，購買預測有什麼困難？

忽略先驗知識：純粹看這次行為特徵，沒有利用歷史基率（例如「整體購買率只有 5%」），容易過度樂觀估計購買機率。
無法整合多個特徵的機率意義：瀏覽時間長、點評論、加入願望清單，每個特徵各自對購買有多少貢獻？沒有機率框架就難以整合。
類別不平衡問題更明顯：電商平台「不購買」遠多於「購買」，沒有先驗機率的校準，模型容易偏向多數類。
無法量化不確定性：只給「買」或「不買」的二元判斷，而不是機率值，行銷人員無法設定合理的推播閾值。
特徵條件獨立性假設簡化計算：若強制要求所有特徵必須建模完整聯合分佈，計算量呈指數增長；貝氏框架允許用條件獨立假設（樸素貝氏）大幅簡化。

04　解法

貝氏定理怎麼算購買機率

以 momo 購物的例子，貝氏定理的邏輯是：

先驗機率（Prior）：不看任何特徵，過去 30 天有 5% 的訪客最終購買。P(購買) = 0.05。
似然度（Likelihood）：觀察到「停留 8 分鐘」這個特徵後，過去「有購買」的顧客裡有 70% 曾停留超過 5 分鐘；「未購買」的顧客只有 20% 停留這麼久。
後驗機率（Posterior）：把先驗 × 似然度正規化後，得到「在停留 8 分鐘的條件下，購買的機率」，計算出約 15%。

每加入一個新特徵（點評論、加入願望清單），就再做一次貝氏更新，機率會持續調整。最終模型輸出的不是「買」或「不買」，而是一個條件機率值，讓業務團隊決定推播閾值。

這就是選項 B 講的：以條件機率方式計算顧客屬於「會購買」或「不會購買」的分類機率。

技術版：貝氏定理在機器學習分類中的位置

貝氏定理（Bayes' Theorem）屬於機率論與監督式學習的範疇，是分類問題中條件機率推論的理論基礎。

在 AI 領域的位置：貝氏方法在機器學習中有兩個主要應用場景：（1）樸素貝氏分類器（Naive Bayes Classifier）——直接用貝氏定理加上特徵條件獨立假設做分類，計算極快，常用於文本分類、垃圾郵件過濾；（2）貝氏推論框架——作為機率圖模型、貝氏神經網路的理論基礎。

實務上誰在用：文本分類（新聞分類、情感分析的快速基準）、醫療診斷（症狀 → 疾病機率）、垃圾郵件過濾（關鍵詞組合 → 垃圾機率）、風控信用評分等。

跟相關術語的對比：

樸素貝氏（Naive Bayes）：假設特徵條件獨立，是貝氏定理最簡單的分類實作，雖然假設不完全現實但實際效果出奇的好。
邏輯迴歸（Logistic Regression）：也輸出條件機率，但不依賴先驗機率與特徵獨立假設，而是直接學習決策邊界。
貝氏最佳化（Bayesian Optimization）：用貝氏推論做超參數搜尋，與分類任務的貝氏定理應用是不同層面。

為什麼出題者要考這題：貝氏定理是統計與機器學習的橋樑，理解「條件機率」是分類問題的核心。能正確區分貝氏方法（條件機率分類）與聚類、迴歸、強化學習的差異，是中級應試者的基本素養。

05　陷阱

為什麼其他選項是錯的

A根據歷史樣本自動分群，找出行為相似的顧客群

字面在說什麼

這描述的是聚類（Clustering）的概念，例如 K-means，把顧客依行為相似性分成幾群。

為什麼不對

聚類是非監督式學習，沒有「購買」或「不購買」的標籤。貝氏定理是有監督的條件機率計算，根據已知的購買標籤反推特徵的似然度。兩者目的和方法完全不同。

誰會選錯

看到「找出相似顧客」就聯想到推薦系統常用的協同過濾，誤以為跟貝氏推論類似的人。聚類找的是「哪些人像哪些人」，貝氏問的是「這個人買的機率是多少」。

C以最小平方誤差（Mean Squared Error）為損失函數，預測顧客的購買金額

字面在說什麼

MSE 是迴歸問題的損失函數，用來預測連續數值（例如購買金額）。

為什麼不對

題目問的是「會不會購買」（分類問題），不是「購買多少錢」（迴歸問題）。貝氏定理用於分類時輸出機率，而非最小化 MSE。MSE 是線性迴歸常用的損失函數，不是貝氏推論的核心機制。

誰會選錯

把「預測購買行為」誤解成「預測購買金額」的人，或是只記得 MSE 是常見損失函數，沒注意到這題是分類而非迴歸的人。

D依據回饋信號（Feedback Signal）透過強化學習（Reinforcement Learning）動態調整推薦策略

字面在說什麼

強化學習讓模型在環境中行動，根據獎勵或懲罰信號學習最佳策略，例如推薦系統透過使用者點擊行為動態調整推薦。

為什麼不對

貝氏定理是靜態的條件機率計算，在給定特徵後推算分類機率，不涉及「行動-回饋-策略更新」的迴圈。強化學習是完全不同的學習範式，強調序列決策和獎勵最大化。

誰會選錯

看到「電商推薦」就直覺想到強化學習推薦系統的人。兩者確實都用在電商，但應用層次不同：貝氏定理在推論分類機率，強化學習在最佳化推薦策略。

06　變形

同個考點下次怎麼變形

變形 1

樸素貝氏為什麼叫「樸素」？

直覺

假設所有特徵之間互相獨立，這個假設在現實中幾乎不成立，所以叫「樸素（天真）」。

答案

樸素貝氏（Naive Bayes）在貝氏定理中加上「各特徵在給定類別後條件獨立」的假設，把聯合機率計算簡化為各特徵機率的乘積。雖然「獨立」假設幾乎不現實，但實際效果往往出奇的好，計算速度極快，特別適合高維特徵（如文本）。

變形 2

貝氏定理和邏輯迴歸都輸出機率，差別在哪？

直覺

兩者都能輸出「屬於某類的機率」，但背後的原理和假設不一樣。

答案

貝氏方法是生成式模型（Generative Model）：先對每個類別的特徵分佈建模（P(特徵|類別)），再用貝氏定理反推後驗機率。邏輯迴歸是判別式模型（Discriminative Model）：直接學習 P(類別|特徵)，不建模特徵分佈。生成式模型需要的資料通常更少，但假設更多；判別式模型通常在大資料量時表現更好。

變形 3

如果訓練資料中某個特徵值從未出現在某類別，樸素貝氏會怎樣？

直覺

P(特徵值|類別) = 0，乘起來整個後驗機率就變成 0，這樣的預測沒有意義。

答案

這是「零機率問題」（Zero-Probability Problem），解法是拉普拉斯平滑（Laplace Smoothing）：在每個特徵值的計數上加 1（或加一個小常數 α），確保任何特徵值對任何類別的機率都不為零。這樣即使訓練集沒見過某組合，模型也不會崩潰。

變形 4

後驗機率（Posterior）、先驗機率（Prior）、似然度（Likelihood）各代表什麼？

直覺

貝氏定理把這三個概念串起來：後驗 ∝ 似然度 × 先驗。

答案

先驗機率（Prior）是在看到任何證據前的初始信念（例如整體購買率 5%）；似然度（Likelihood）是在給定類別下觀察到這些特徵的機率（例如「有購買者中停留 8 分鐘的比例」）；後驗機率（Posterior）是看到特徵後更新的信念（「這個顧客購買的機率」）。貝氏定理的精髓是用新觀察更新既有信念。

變形 5

貝氏方法和 A/B 測試有什麼關聯？

直覺

傳統 A/B 測試用頻率學（p-value），有沒有更「即時更新信念」的方式？

答案

貝氏 A/B 測試用後驗機率替代 p-value：隨著資料不斷進來，持續更新「版本 A 勝過版本 B 的機率」。好處是可以隨時停止實驗（不需要事先決定樣本量），壞處是需要設定先驗，且解讀方式與傳統頻率學不同，需要團隊有統計素養。

07　延伸

想再往下看，這 5 個

貝氏定理（Bayes' Theorem）本題核心，用先驗機率與似然度計算後驗機率，是條件機率推論的數學基礎。
樸素貝氏（Naive Bayes）貝氏定理最常見的分類實作，加上特徵條件獨立假設，計算快、效果好。
邏輯迴歸（Logistic Regression）同樣輸出條件機率的判別式模型，與貝氏生成式方法形成重要對比。
監督式學習（Supervised Learning）貝氏分類屬於監督式學習，需要帶標籤的訓練資料估計各類別的機率分佈。
機率分佈（Probability Distribution）貝氏方法對特徵在各類別下的分佈建模，理解機率分佈是掌握貝氏推論的前提。