iPAS AI 應用規劃師中級　科目二　大數據處理分析與應用

關聯規則 Lift > 1，代表科幻與超英雄什麼關係？

原題 26

某串流影音平台運用關聯規則學習（Association Rule Learning）分析用戶的觀影行為，發現若使用者觀看了科幻影集，則有較高機率接著觀看超級英雄電影。分析顯示，同時觀看這兩種類型的使用者約佔全部觀影紀錄的 12%，而觀看科幻影集的使用者中，有 50%也觀看了超級英雄電影，該規則的提升度（Lift）為 1.8。根據上述資訊，下列哪一項推論最為正確？

白話

一個串流平台分析用戶看科幻和超英雄這兩類內容的關聯。數字如下：同時觀看兩種類型的人佔 12%（支持度）；看了科幻的人中有 50% 也看了超英雄（信賴度）；提升度是 1.8。

問你：根據支持度 12%、信賴度 50%、提升度 1.8，下列四個推論哪一個是正確的？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

信賴度 50% 表示看了科幻的用戶有一半也看超英雄，這是「明顯傾向」的有力證據；提升度 1.8 > 1 更確認兩者有正向關聯，並非隨機。正確推論是：信賴度（Confidence）為 50%，代表觀看科幻影集者有明顯傾向觀看超級英雄電影。

02　情境

先感受問題：平台怎麼知道「看完這個通常也會看那個」

宇宙串流平台的資料科學家柏宏，分析了 100 萬筆用戶觀影紀錄，想找出「看了 X 的人，通常也會看 Y」這樣的關聯規則，用來優化推薦系統。

他發現了一條規則：「科幻影集 → 超級英雄電影」。三個數字：

支持度（Support）= 12%：100 萬筆中，有 12 萬筆同時包含科幻和超英雄的觀影紀錄
信賴度（Confidence）= 50%：看過科幻的人裡，有 50% 也看了超英雄
提升度（Lift）= 1.8：看了科幻後看超英雄的機率，是「完全隨機條件下」的 1.8 倍

柏宏要向產品團隊解讀這三個數字，說明這條規則的意義和商業價值。

03　對照

不懂三個指標的差異，推論容易犯哪些錯

把支持度低誤解為「規則無效」：支持度衡量的是規則在整體資料中的「覆蓋率」，不是規則強弱的唯一指標。12% 在串流平台的超大規模資料集下，代表 12 萬筆，足夠建立推薦規則。
不知道提升度的意義：提升度 Lift = 1 代表完全隨機（兩者獨立），Lift > 1 代表正向關聯（看科幻後看超英雄的比率高於隨機），Lift < 1 代表負向關聯（抑制效果）。Lift = 1.8 是正向關聯的強有力證據。
誤認為「12% 很少所以互斥」：互相排斥（Mutually Exclusive）是指兩者不能同時發生，支持度應接近 0。12% 代表有相當數量的重疊，完全不是互斥。
誤把信賴度 50% 理解為「不足夠強」：信賴度的強弱要跟「背景機率」比較。若超英雄電影在全平台的觀看比例只有 30%，那看了科幻後有 50% 的人看超英雄，遠高於背景機率，這就是明顯傾向。
忽略支持度、信賴度、提升度需要綜合解讀：三個指標各有意義，不能只看一個。好的規則通常需要三個指標都達到一定水準才有商業價值。

04　解法

正確解讀三個指標，信賴度 50% 就是明顯傾向

柏宏對產品團隊解釋：

支持度 12%：在 100 萬筆紀錄中，12 萬筆同時出現科幻和超英雄，數量不少。支持度衡量規則的「覆蓋範圍」，12% 在大平台裡很有意義。
信賴度 50%：看了科幻的用戶，每 2 個就有 1 個也看超英雄。這是個明顯的行為傾向，不是偶然。
提升度 1.8：假設超英雄電影在平台的整體觀看率是 28%，那「看科幻後看超英雄」的機率（50%）是隨機條件下（28%）的 1.8 倍（50% / 28% ≈ 1.8）。Lift > 1 確認兩者有正向關聯，不是隨機重疊。

結論：這條關聯規則有商業價值，可以用來做「看完科幻影集」後的超英雄電影推薦。

這就是選項 C 講的：信賴度（Confidence）為 50%，代表觀看科幻影集者有明顯傾向觀看超級英雄電影。

技術版：關聯規則學習的三個核心指標與實務應用

關聯規則學習（Association Rule Learning）起源於購物籃分析（Market Basket Analysis），用來發現商品或行為之間的同時出現模式（Co-occurrence Patterns）。最知名的算法是 Apriori 和 FP-Growth。

三個核心指標的精確定義：

支持度（Support）：P(A ∩ B) = 同時出現 A 和 B 的交易 / 總交易數。衡量規則的「出現頻率」，過低表示樣本太稀疏。
信賴度（Confidence）：P(B|A) = P(A ∩ B) / P(A)。在出現 A 的條件下，同時出現 B 的機率。衡量規則的「方向性強度」。
提升度（Lift）：P(B|A) / P(B) = Confidence / Support(B)。信賴度除以 B 的背景機率。Lift = 1 表示獨立，Lift > 1 表示正相關，Lift < 1 表示負相關（抑制）。

為什麼 Lift 比 Confidence 更重要：Confidence 不考慮 B 的背景機率，可能產生「虛假高信賴度」。例如若 80% 的用戶都看超英雄電影，那信賴度 50% 反而是低於背景機率的「抑制效果」，但單看 Confidence = 50% 可能誤以為是正關聯。Lift 自動校正這個問題。

在推薦系統中，關聯規則被用來補強協同過濾的「冷啟動問題」：新用戶沒有足夠的歷史行為，但只要知道他看了某個類型，就能用關聯規則推薦相關內容。電商的「一起購買」推薦就是這個原理的商業應用。

05　陷阱

為什麼其他選項是錯的

A支持度（Support）過低，代表此規則不具任何商業價值

字面在說什麼

12% 支持度看起來不高，所以這條規則沒用。

為什麼不對

支持度衡量的是覆蓋範圍，「過低」的標準取決於業務規模。在 100 萬筆紀錄中，12% 代表 12 萬筆，是大量的真實行為數據，足以建立有效的推薦規則。此外，商業價值不只看支持度，信賴度（50%）和提升度（1.8）都顯示這條規則有實際的預測能力。

誰會選錯

以為支持度越高越好、越低越沒價值的人。支持度低只意味著覆蓋範圍窄，不代表規則本身沒有方向性強度。利基市場（Niche Market）的推薦規則支持度天生就低，但信賴度高仍然有商業價值。

B提升度（Lift）大於 1 表示兩種類型內容無關，僅屬於隨機重疊

字面在說什麼

Lift = 1.8 大於 1，不是說獨立就是 1，所以偏離 1 就是隨機？

為什麼不對

完全搞反了。Lift = 1 代表獨立（隨機），Lift > 1 代表正向關聯（看了 A 後看 B 的機率高於隨機），Lift < 1 才代表負向關聯（抑制）。Lift = 1.8 表示「看了科幻後看超英雄」的機率是純隨機條件的 1.8 倍，是強正向關聯的證據。

誰會選錯

把 Lift 的基準值搞混的人。記住：Lift 的基準是 1（獨立），不是 0（完全無關）。偏離 1 越大，正負向關聯越強。

D同時觀看比例僅 12%，代表兩種類型互相排斥

字面在說什麼

只有 12% 的人同時看兩種，大多數人不同時看，所以兩者是互斥的。

為什麼不對

互相排斥（Mutually Exclusive）在統計上指兩個事件不能同時發生，P(A ∩ B) 應趨近 0。本題支持度 12% 代表有相當數量的用戶同時看兩種，明顯不是互斥。12% 的「不那麼高」不等於「互斥」，只是說明這個組合不是最主流的選擇，但存在明顯的共同觀看行為。

誰會選錯

把「低支持度」和「互相排斥」混為一談的人。互斥是個定義明確的統計概念（P(A∩B)=0），不是「比例不夠高」的模糊描述。

06　變形

同個考點下次怎麼變形

變形 1

若提升度 Lift = 0.6，代表什麼商業意涵？

直覺

Lift 小於 1，代表兩者有關聯嗎？

答案

Lift = 0.6 < 1，代表負向關聯：看了科幻的人，看超英雄的機率比隨機更低（只有隨機的 60%）。這可能意味著這兩個族群偏好不同，把超英雄推薦給科幻觀眾可能反而造成反感。在推薦系統中，負 Lift 的規則應主動迴避，而不是推薦。

變形 2

Apriori 算法的核心假設是什麼？

直覺

Apriori 是算法名稱，它的邏輯是什麼？

答案

Apriori 假設：「如果一個項目集是高頻次的，則它的所有子集也是高頻次的」（反向：若子集支持度低，包含它的更大集合一定更低）。利用這個「先驗」原則，可以快速剪枝（Pruning），不需要計算所有可能的組合，大幅減少計算量。FP-Growth 是更高效的替代算法，避免多次掃描資料庫。

變形 3

信賴度 90% 一定比信賴度 50% 更有價值嗎？

直覺

信賴度越高不是越好嗎？

答案

不一定。如果 B 的整體觀看率本來就是 90%，那信賴度 90% 對應的 Lift = 1（沒有提升），規則沒有預測價值。反之，如果 B 的整體比率只有 20%，那信賴度 50% 的 Lift = 2.5，是很強的正關聯。信賴度要結合背景機率（即 Lift）才能判斷規則是否真的有價值。

變形 4

關聯規則和協同過濾（Collaborative Filtering）在推薦系統中有什麼不同？

直覺

兩個都是推薦，有什麼差別？

答案

關聯規則基於「項目共現頻率」（同一個用戶的行為序列），找「A 和 B 常一起出現」的規律，不需要用戶相似性，適合冷啟動場景。協同過濾基於「用戶相似性」（相似用戶喜歡相似東西），需要足夠的用戶歷史行為，推薦精度通常更高但需要大量資料。

變形 5

設定關聯規則的最小支持度門檻時，應該考慮哪些因素？

直覺

門檻設多低才合適？

答案

需要平衡：門檻太高會錯過有價值的利基規則（Niche Rules）；門檻太低會產生大量低品質規則，計算成本爆炸。實務上考慮：業務規模（1% 在 10 億筆 = 1 千萬，很有意義）、推薦場景的精度要求、算力限制。電商和串流平台通常會分層設定：頭部商品用高門檻，利基品類用低門檻。

07　延伸

想再往下看，這 5 個

協同過濾（Collaborative Filtering）推薦系統的主流算法，基於相似用戶的行為推薦內容，關聯規則可作為其補充尤其在冷啟動場景。
內容過濾推薦（Content-Based Filtering）基於內容特徵的推薦方式，與關聯規則結合可建立基於觀看類型的跨類推薦。
大數據（Big Data）關聯規則學習需要大量交易紀錄才能找出具統計意義的頻繁項目集，是大數據分析的典型應用。
描述性統計（Descriptive Statistics）支持度和信賴度本質上是條件機率的統計量，理解機率概念是正確解讀關聯規則指標的基礎。
機器學習管線（ML Pipeline）關聯規則挖掘通常作為推薦系統 Pipeline 的一個模組，輸出規則庫供線上推薦服務使用。