iPAS AI 應用規劃師 中級 科目三 機器學習技術與應用

貝氏定理如何預測購買機率?

原題 22

某電商平台希望預測顧客是否會購買特定商品。系統蒐集顧客的瀏覽紀錄、停留時間、商品類別偏好與過去購買行為,並以此推估「在觀察到這些行為特徵的情況下,該顧客會購買的機率」。若模型採用貝氏定理(Bayes' Theorem)進行推論,下列敘述何者最符合其核心運作機制?

白話

一個電商平台收集了顧客的瀏覽紀錄、停留時間、商品偏好、購買歷史等行為特徵,想用這些資訊來估算「在這些行為條件下,顧客購買的機率」。模型採用貝氏定理進行推論。

問你:貝氏定理在這個購買機率預測中的核心運作機制是什麼?

點選你的答案。

01 總結

一句話總結

貝氏定理的核心是:以條件機率方式計算顧客屬於「會購買」或「不會購買」的分類機率,即在已觀察到行為特徵的條件下,利用先驗知識更新對購買類別的後驗機率估計。

02 情境

先感受問題:知道顧客在看什麼,能推算他買不買嗎?

你是 momo 購物網的資料科學師。你看到一個顧客的行為紀錄:他今天在「AirPods Pro」頁面停留了 8 分鐘,點開了 3 則評論,但還沒加入購物車。這是「會買」還是「不會買」?

直覺上你知道:過去有類似行為的顧客中,大約有 40% 最後有買。但今天這個顧客比平均多停留了一倍時間。這個額外資訊讓你把機率往上修正到 60% 嗎?

這種「根據新觀察到的行為,持續更新機率估計」的推理方式,就是貝氏定理的核心。

03 對照

沒有貝氏推論,購買預測有什麼困難?

  1. 忽略先驗知識:純粹看這次行為特徵,沒有利用歷史基率(例如「整體購買率只有 5%」),容易過度樂觀估計購買機率。
  2. 無法整合多個特徵的機率意義:瀏覽時間長、點評論、加入願望清單,每個特徵各自對購買有多少貢獻?沒有機率框架就難以整合。
  3. 類別不平衡問題更明顯:電商平台「不購買」遠多於「購買」,沒有先驗機率的校準,模型容易偏向多數類。
  4. 無法量化不確定性:只給「買」或「不買」的二元判斷,而不是機率值,行銷人員無法設定合理的推播閾值。
  5. 特徵條件獨立性假設簡化計算:若強制要求所有特徵必須建模完整聯合分佈,計算量呈指數增長;貝氏框架允許用條件獨立假設(樸素貝氏)大幅簡化。
04 解法

貝氏定理怎麼算購買機率

以 momo 購物的例子,貝氏定理的邏輯是:

  • 先驗機率(Prior):不看任何特徵,過去 30 天有 5% 的訪客最終購買。P(購買) = 0.05。
  • 似然度(Likelihood):觀察到「停留 8 分鐘」這個特徵後,過去「有購買」的顧客裡有 70% 曾停留超過 5 分鐘;「未購買」的顧客只有 20% 停留這麼久。
  • 後驗機率(Posterior):把先驗 × 似然度正規化後,得到「在停留 8 分鐘的條件下,購買的機率」,計算出約 15%。

每加入一個新特徵(點評論、加入願望清單),就再做一次貝氏更新,機率會持續調整。最終模型輸出的不是「買」或「不買」,而是一個條件機率值,讓業務團隊決定推播閾值。

這就是選項 B 講的:以條件機率方式計算顧客屬於「會購買」或「不會購買」的分類機率

技術版:貝氏定理在機器學習分類中的位置

貝氏定理(Bayes' Theorem)屬於機率論監督式學習的範疇,是分類問題中條件機率推論的理論基礎。

在 AI 領域的位置:貝氏方法在機器學習中有兩個主要應用場景:(1)樸素貝氏分類器(Naive Bayes Classifier)——直接用貝氏定理加上特徵條件獨立假設做分類,計算極快,常用於文本分類、垃圾郵件過濾;(2)貝氏推論框架——作為機率圖模型、貝氏神經網路的理論基礎。

實務上誰在用:文本分類(新聞分類、情感分析的快速基準)、醫療診斷(症狀 → 疾病機率)、垃圾郵件過濾(關鍵詞組合 → 垃圾機率)、風控信用評分等。

跟相關術語的對比:

  • 樸素貝氏(Naive Bayes):假設特徵條件獨立,是貝氏定理最簡單的分類實作,雖然假設不完全現實但實際效果出奇的好。
  • 邏輯迴歸(Logistic Regression):也輸出條件機率,但不依賴先驗機率與特徵獨立假設,而是直接學習決策邊界。
  • 貝氏最佳化(Bayesian Optimization):用貝氏推論做超參數搜尋,與分類任務的貝氏定理應用是不同層面。

為什麼出題者要考這題:貝氏定理是統計與機器學習的橋樑,理解「條件機率」是分類問題的核心。能正確區分貝氏方法(條件機率分類)與聚類、迴歸、強化學習的差異,是中級應試者的基本素養。

05 陷阱

為什麼其他選項是錯的

A根據歷史樣本自動分群,找出行為相似的顧客群

字面在說什麼

這描述的是聚類(Clustering)的概念,例如 K-means,把顧客依行為相似性分成幾群。

為什麼不對

聚類是非監督式學習,沒有「購買」或「不購買」的標籤。貝氏定理是有監督的條件機率計算,根據已知的購買標籤反推特徵的似然度。兩者目的和方法完全不同。

誰會選錯

看到「找出相似顧客」就聯想到推薦系統常用的協同過濾,誤以為跟貝氏推論類似的人。聚類找的是「哪些人像哪些人」,貝氏問的是「這個人買的機率是多少」。

C以最小平方誤差(Mean Squared Error)為損失函數,預測顧客的購買金額

字面在說什麼

MSE 是迴歸問題的損失函數,用來預測連續數值(例如購買金額)。

為什麼不對

題目問的是「會不會購買」(分類問題),不是「購買多少錢」(迴歸問題)。貝氏定理用於分類時輸出機率,而非最小化 MSE。MSE 是線性迴歸常用的損失函數,不是貝氏推論的核心機制。

誰會選錯

把「預測購買行為」誤解成「預測購買金額」的人,或是只記得 MSE 是常見損失函數,沒注意到這題是分類而非迴歸的人。

D依據回饋信號(Feedback Signal)透過強化學習(Reinforcement Learning)動態調整推薦策略

字面在說什麼

強化學習讓模型在環境中行動,根據獎勵或懲罰信號學習最佳策略,例如推薦系統透過使用者點擊行為動態調整推薦。

為什麼不對

貝氏定理是靜態的條件機率計算,在給定特徵後推算分類機率,不涉及「行動-回饋-策略更新」的迴圈。強化學習是完全不同的學習範式,強調序列決策和獎勵最大化。

誰會選錯

看到「電商推薦」就直覺想到強化學習推薦系統的人。兩者確實都用在電商,但應用層次不同:貝氏定理在推論分類機率,強化學習在最佳化推薦策略。

06 變形

同個考點下次怎麼變形

變形 1

樸素貝氏為什麼叫「樸素」?

直覺

假設所有特徵之間互相獨立,這個假設在現實中幾乎不成立,所以叫「樸素(天真)」。

答案

樸素貝氏(Naive Bayes)在貝氏定理中加上「各特徵在給定類別後條件獨立」的假設,把聯合機率計算簡化為各特徵機率的乘積。雖然「獨立」假設幾乎不現實,但實際效果往往出奇的好,計算速度極快,特別適合高維特徵(如文本)。

變形 2

貝氏定理和邏輯迴歸都輸出機率,差別在哪?

直覺

兩者都能輸出「屬於某類的機率」,但背後的原理和假設不一樣。

答案

貝氏方法是生成式模型(Generative Model):先對每個類別的特徵分佈建模(P(特徵|類別)),再用貝氏定理反推後驗機率。邏輯迴歸是判別式模型(Discriminative Model):直接學習 P(類別|特徵),不建模特徵分佈。生成式模型需要的資料通常更少,但假設更多;判別式模型通常在大資料量時表現更好。

變形 3

如果訓練資料中某個特徵值從未出現在某類別,樸素貝氏會怎樣?

直覺

P(特徵值|類別) = 0,乘起來整個後驗機率就變成 0,這樣的預測沒有意義。

答案

這是「零機率問題」(Zero-Probability Problem),解法是拉普拉斯平滑(Laplace Smoothing):在每個特徵值的計數上加 1(或加一個小常數 α),確保任何特徵值對任何類別的機率都不為零。這樣即使訓練集沒見過某組合,模型也不會崩潰。

變形 4

後驗機率(Posterior)、先驗機率(Prior)、似然度(Likelihood)各代表什麼?

直覺

貝氏定理把這三個概念串起來:後驗 ∝ 似然度 × 先驗。

答案

先驗機率(Prior)是在看到任何證據前的初始信念(例如整體購買率 5%);似然度(Likelihood)是在給定類別下觀察到這些特徵的機率(例如「有購買者中停留 8 分鐘的比例」);後驗機率(Posterior)是看到特徵後更新的信念(「這個顧客購買的機率」)。貝氏定理的精髓是用新觀察更新既有信念。

變形 5

貝氏方法和 A/B 測試有什麼關聯?

直覺

傳統 A/B 測試用頻率學(p-value),有沒有更「即時更新信念」的方式?

答案

貝氏 A/B 測試用後驗機率替代 p-value:隨著資料不斷進來,持續更新「版本 A 勝過版本 B 的機率」。好處是可以隨時停止實驗(不需要事先決定樣本量),壞處是需要設定先驗,且解讀方式與傳統頻率學不同,需要團隊有統計素養。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 114 年第二梯次 iPAS AI 應用規劃師 中級 科目三 機器學習技術與應用 第 22 題

查看官方原文 PDF