iPAS AI 應用規劃師 中級 科目二 大數據處理分析與應用

關聯規則 Lift > 1,代表科幻與超英雄什麼關係?

原題 26

某串流影音平台運用關聯規則學習(Association Rule Learning)分析用戶的觀影行為,發現若使用者觀看了科幻影集,則有較高機率接著觀看超級英雄電影。分析顯示,同時觀看這兩種類型的使用者約佔全部觀影紀錄的 12%,而觀看科幻影集的使用者中,有 50%也觀看了超級英雄電影,該規則的提升度(Lift)為 1.8。根據上述資訊,下列哪一項推論最為正確?

白話

一個串流平台分析用戶看科幻和超英雄這兩類內容的關聯。數字如下:同時觀看兩種類型的人佔 12%(支持度);看了科幻的人中有 50% 也看了超英雄(信賴度);提升度是 1.8。

問你:根據支持度 12%、信賴度 50%、提升度 1.8,下列四個推論哪一個是正確的?

點選你的答案。

01 總結

一句話總結

信賴度 50% 表示看了科幻的用戶有一半也看超英雄,這是「明顯傾向」的有力證據;提升度 1.8 > 1 更確認兩者有正向關聯,並非隨機。正確推論是:信賴度(Confidence)為 50%,代表觀看科幻影集者有明顯傾向觀看超級英雄電影

02 情境

先感受問題:平台怎麼知道「看完這個通常也會看那個」

宇宙串流平台的資料科學家柏宏,分析了 100 萬筆用戶觀影紀錄,想找出「看了 X 的人,通常也會看 Y」這樣的關聯規則,用來優化推薦系統。

他發現了一條規則:「科幻影集 → 超級英雄電影」。三個數字:

支持度(Support)= 12%:100 萬筆中,有 12 萬筆同時包含科幻和超英雄的觀影紀錄
信賴度(Confidence)= 50%:看過科幻的人裡,有 50% 也看了超英雄
提升度(Lift)= 1.8:看了科幻後看超英雄的機率,是「完全隨機條件下」的 1.8 倍

柏宏要向產品團隊解讀這三個數字,說明這條規則的意義和商業價值。

03 對照

不懂三個指標的差異,推論容易犯哪些錯

  1. 把支持度低誤解為「規則無效」:支持度衡量的是規則在整體資料中的「覆蓋率」,不是規則強弱的唯一指標。12% 在串流平台的超大規模資料集下,代表 12 萬筆,足夠建立推薦規則。
  2. 不知道提升度的意義:提升度 Lift = 1 代表完全隨機(兩者獨立),Lift > 1 代表正向關聯(看科幻後看超英雄的比率高於隨機),Lift < 1 代表負向關聯(抑制效果)。Lift = 1.8 是正向關聯的強有力證據。
  3. 誤認為「12% 很少所以互斥」:互相排斥(Mutually Exclusive)是指兩者不能同時發生,支持度應接近 0。12% 代表有相當數量的重疊,完全不是互斥。
  4. 誤把信賴度 50% 理解為「不足夠強」:信賴度的強弱要跟「背景機率」比較。若超英雄電影在全平台的觀看比例只有 30%,那看了科幻後有 50% 的人看超英雄,遠高於背景機率,這就是明顯傾向。
  5. 忽略支持度、信賴度、提升度需要綜合解讀:三個指標各有意義,不能只看一個。好的規則通常需要三個指標都達到一定水準才有商業價值。
04 解法

正確解讀三個指標,信賴度 50% 就是明顯傾向

柏宏對產品團隊解釋:

  • 支持度 12%:在 100 萬筆紀錄中,12 萬筆同時出現科幻和超英雄,數量不少。支持度衡量規則的「覆蓋範圍」,12% 在大平台裡很有意義。
  • 信賴度 50%:看了科幻的用戶,每 2 個就有 1 個也看超英雄。這是個明顯的行為傾向,不是偶然。
  • 提升度 1.8:假設超英雄電影在平台的整體觀看率是 28%,那「看科幻後看超英雄」的機率(50%)是隨機條件下(28%)的 1.8 倍(50% / 28% ≈ 1.8)。Lift > 1 確認兩者有正向關聯,不是隨機重疊。

結論:這條關聯規則有商業價值,可以用來做「看完科幻影集」後的超英雄電影推薦。

這就是選項 C 講的:信賴度(Confidence)為 50%,代表觀看科幻影集者有明顯傾向觀看超級英雄電影

技術版:關聯規則學習的三個核心指標與實務應用

關聯規則學習(Association Rule Learning)起源於購物籃分析(Market Basket Analysis),用來發現商品或行為之間的同時出現模式(Co-occurrence Patterns)。最知名的算法是 Apriori 和 FP-Growth。

三個核心指標的精確定義:

  • 支持度(Support):P(A ∩ B) = 同時出現 A 和 B 的交易 / 總交易數。衡量規則的「出現頻率」,過低表示樣本太稀疏。
  • 信賴度(Confidence):P(B|A) = P(A ∩ B) / P(A)。在出現 A 的條件下,同時出現 B 的機率。衡量規則的「方向性強度」。
  • 提升度(Lift):P(B|A) / P(B) = Confidence / Support(B)。信賴度除以 B 的背景機率。Lift = 1 表示獨立,Lift > 1 表示正相關,Lift < 1 表示負相關(抑制)。

為什麼 Lift 比 Confidence 更重要:Confidence 不考慮 B 的背景機率,可能產生「虛假高信賴度」。例如若 80% 的用戶都看超英雄電影,那信賴度 50% 反而是低於背景機率的「抑制效果」,但單看 Confidence = 50% 可能誤以為是正關聯。Lift 自動校正這個問題。

在推薦系統中,關聯規則被用來補強協同過濾的「冷啟動問題」:新用戶沒有足夠的歷史行為,但只要知道他看了某個類型,就能用關聯規則推薦相關內容。電商的「一起購買」推薦就是這個原理的商業應用。

05 陷阱

為什麼其他選項是錯的

A支持度(Support)過低,代表此規則不具任何商業價值

字面在說什麼

12% 支持度看起來不高,所以這條規則沒用。

為什麼不對

支持度衡量的是覆蓋範圍,「過低」的標準取決於業務規模。在 100 萬筆紀錄中,12% 代表 12 萬筆,是大量的真實行為數據,足以建立有效的推薦規則。此外,商業價值不只看支持度,信賴度(50%)和提升度(1.8)都顯示這條規則有實際的預測能力。

誰會選錯

以為支持度越高越好、越低越沒價值的人。支持度低只意味著覆蓋範圍窄,不代表規則本身沒有方向性強度。利基市場(Niche Market)的推薦規則支持度天生就低,但信賴度高仍然有商業價值。

B提升度(Lift)大於 1 表示兩種類型內容無關,僅屬於隨機重疊

字面在說什麼

Lift = 1.8 大於 1,不是說獨立就是 1,所以偏離 1 就是隨機?

為什麼不對

完全搞反了。Lift = 1 代表獨立(隨機),Lift > 1 代表正向關聯(看了 A 後看 B 的機率高於隨機),Lift < 1 才代表負向關聯(抑制)。Lift = 1.8 表示「看了科幻後看超英雄」的機率是純隨機條件的 1.8 倍,是強正向關聯的證據。

誰會選錯

把 Lift 的基準值搞混的人。記住:Lift 的基準是 1(獨立),不是 0(完全無關)。偏離 1 越大,正負向關聯越強。

D同時觀看比例僅 12%,代表兩種類型互相排斥

字面在說什麼

只有 12% 的人同時看兩種,大多數人不同時看,所以兩者是互斥的。

為什麼不對

互相排斥(Mutually Exclusive)在統計上指兩個事件不能同時發生,P(A ∩ B) 應趨近 0。本題支持度 12% 代表有相當數量的用戶同時看兩種,明顯不是互斥。12% 的「不那麼高」不等於「互斥」,只是說明這個組合不是最主流的選擇,但存在明顯的共同觀看行為。

誰會選錯

把「低支持度」和「互相排斥」混為一談的人。互斥是個定義明確的統計概念(P(A∩B)=0),不是「比例不夠高」的模糊描述。

06 變形

同個考點下次怎麼變形

變形 1

若提升度 Lift = 0.6,代表什麼商業意涵?

直覺

Lift 小於 1,代表兩者有關聯嗎?

答案

Lift = 0.6 < 1,代表負向關聯:看了科幻的人,看超英雄的機率比隨機更低(只有隨機的 60%)。這可能意味著這兩個族群偏好不同,把超英雄推薦給科幻觀眾可能反而造成反感。在推薦系統中,負 Lift 的規則應主動迴避,而不是推薦。

變形 2

Apriori 算法的核心假設是什麼?

直覺

Apriori 是算法名稱,它的邏輯是什麼?

答案

Apriori 假設:「如果一個項目集是高頻次的,則它的所有子集也是高頻次的」(反向:若子集支持度低,包含它的更大集合一定更低)。利用這個「先驗」原則,可以快速剪枝(Pruning),不需要計算所有可能的組合,大幅減少計算量。FP-Growth 是更高效的替代算法,避免多次掃描資料庫。

變形 3

信賴度 90% 一定比信賴度 50% 更有價值嗎?

直覺

信賴度越高不是越好嗎?

答案

不一定。如果 B 的整體觀看率本來就是 90%,那信賴度 90% 對應的 Lift = 1(沒有提升),規則沒有預測價值。反之,如果 B 的整體比率只有 20%,那信賴度 50% 的 Lift = 2.5,是很強的正關聯。信賴度要結合背景機率(即 Lift)才能判斷規則是否真的有價值。

變形 4

關聯規則和協同過濾(Collaborative Filtering)在推薦系統中有什麼不同?

直覺

兩個都是推薦,有什麼差別?

答案

關聯規則基於「項目共現頻率」(同一個用戶的行為序列),找「A 和 B 常一起出現」的規律,不需要用戶相似性,適合冷啟動場景。協同過濾基於「用戶相似性」(相似用戶喜歡相似東西),需要足夠的用戶歷史行為,推薦精度通常更高但需要大量資料。

變形 5

設定關聯規則的最小支持度門檻時,應該考慮哪些因素?

直覺

門檻設多低才合適?

答案

需要平衡:門檻太高會錯過有價值的利基規則(Niche Rules);門檻太低會產生大量低品質規則,計算成本爆炸。實務上考慮:業務規模(1% 在 10 億筆 = 1 千萬,很有意義)、推薦場景的精度要求、算力限制。電商和串流平台通常會分層設定:頭部商品用高門檻,利基品類用低門檻。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 114 年第二梯次 iPAS AI 應用規劃師 中級 科目二 大數據處理分析與應用 第 26 題

查看官方原文 PDF