A/B測試(A/B Testing)是什麼?

A/B測試是一種隨機實驗方法,用於比較兩個版本的變數(A 和 B),以確定哪個版本表現更好。常用於優化使用者體驗和提升轉換率。|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

A/B測試(A/B Testing)是什麼? 模型部署模型評估

你有沒有注意過,同一個 App 你跟朋友看到的介面長得不一樣?

這不是 bug。很多產品會同時準備兩個版本,隨機分給不同用戶,然後比較哪一版讓更多人點擊、購買、或完成註冊。這就是 A/B 測試:把用戶分成兩組,一組看原本的版本(A),一組看改過的版本(B),用數據決定哪個更好,而不是靠直覺猜。

為什麼不直接改?因為你覺得「比較好」的設計,用戶不一定買單。把按鈕從藍色改成綠色,轉換率可能提升 3% 也可能下降 5%,不測就不知道。

就像先用生活中的例子抓住核心用途,再回頭看名詞和公式,理解會穩很多。

容易混淆

A/B 測試 vs 多變量測試 vs 金絲雀部署

A/B 測試:同一時間只改一個變數,比較兩個版本的效果差異。

多變量測試:同時改多個變數的多種組合,找出最佳搭配。

金絲雀部署:先讓少數用戶用新版本,確認沒問題才全面推出,重點是降低風險而非比較效果。

最關鍵的區別:A/B 測試的目的是「比較哪個更好」,金絲雀部署的目的是「確認新版不會出事」。

記住這句就好

兩個版本、隨機分組、用數據判定勝負,不猜。

實際案例

Netflix 縮圖測試

Netflix 每部影片都有多張候選縮圖,不是由設計師選「最好看的那張」,而是把不同縮圖隨機展示給不同用戶,追蹤哪張讓最多人點進去看。有些影片光是換一張縮圖,點擊率就差了 20% 以上。

電商結帳流程

一家電商發現購物車放棄率很高,團隊猜測是結帳步驟太多,於是設計了一頁式結帳(B 版)跟原本的三步驟結帳(A 版)做測試。結果出乎意料:三步驟版的轉換率反而更高,因為用戶在一頁式版本中看到太多欄位感到壓迫。

深入了解

A/B 測試的核心流程

步驟 做什麼 關鍵考量
定義目標 決定你要優化什麼指標(點擊率、轉換率、留存率) 一次只測一個主要指標,避免分心
設計變體 製作 B 版本,只改你要測試的那一個變數 改太多東西就不知道是哪個變數造成差異
隨機分組 把用戶隨機分成 A 組和 B 組 隨機很重要,不能讓某類用戶集中在同一組
收集數據 讓測試跑夠久,累積足夠樣本量 太早看結果容易被隨機波動誤導
統計檢定 用 t 檢定或卡方檢定判斷差異是否顯著 p 值 < 0.05 才能說結果不是巧合
做決策 根據結果選擇勝出版本,全面上線 效果不顯著就維持原版,不要硬選

情境判斷

Q1(直覺題): 你想知道把「立即購買」按鈕從藍色改成紅色會不會提升銷售。你應該直接改成紅色上線,還是做 A/B 測試?

→ A/B 測試。顏色偏好因受眾而異,直接改可能降低銷售卻不自知。測試能用數據告訴你真正的答案。

Q2(判斷題): 你的 A/B 測試跑了三天,B 版轉換率比 A 版高 15%,但 p 值是 0.12。你應該宣布 B 版勝出嗎?

→ 不應該。p 值 0.12 表示有 12% 的機率這個差距只是巧合,沒有達到通常要求的 5% 門檻。你應該繼續跑測試直到樣本量夠大,或者接受結果不顯著維持 A 版。但如果商業壓力大、改動風險低,有些團隊會選擇在較寬鬆的門檻下採用 B 版,這是業務判斷而非統計判斷。

常見問題

A/B 測試需要多少樣本才夠?

取決於你想偵測多小的差異。如果你期待轉換率從 5% 提升到 6%(相對提升 20%),大約需要每組 3,000 到 5,000 人。差異越小需要的樣本越多,有免費的線上計算器可以幫你估算。

可以同時測試三個以上的版本嗎?

可以,那叫 A/B/n 測試。但版本越多需要的樣本量越大,測試時間也越長,而且要注意多重比較問題,需要用 Bonferroni 校正等方法調整門檻。

A/B 測試有什麼做不到的?

它只能告訴你「哪個版本表現更好」,不能告訴你「為什麼更好」。想了解原因需要搭配用戶訪談、熱圖分析等質性研究方法。