A/B測試 是什麼?
A/B Testing — A/B測試 的完整解釋
A/B測試是一種隨機實驗方法,用於比較兩個版本的變數(A 和 B),以確定哪個版本表現更好。常用於優化使用者體驗和提升轉換率。
容易混淆
A/B 測試 vs 多變量測試 vs 金絲雀部署
A/B 測試:同一時間只改一個變數,比較兩個版本的效果差異。
多變量測試:同時改多個變數的多種組合,找出最佳搭配。
金絲雀部署:先讓少數用戶用新版本,確認沒問題才全面推出,重點是降低風險而非比較效果。
最關鍵的區別:A/B 測試的目的是「比較哪個更好」,金絲雀部署的目的是「確認新版不會出事」。
記住這句就好
兩個版本、隨機分組、用數據判定勝負,不猜。
實際案例
Netflix 縮圖測試
Netflix 每部影片都有多張候選縮圖,不是由設計師選「最好看的那張」,而是把不同縮圖隨機展示給不同用戶,追蹤哪張讓最多人點進去看。有些影片光是換一張縮圖,點擊率就差了 20% 以上。
電商結帳流程
一家電商發現購物車放棄率很高,團隊猜測是結帳步驟太多,於是設計了一頁式結帳(B 版)跟原本的三步驟結帳(A 版)做測試。結果出乎意料:三步驟版的轉換率反而更高,因為用戶在一頁式版本中看到太多欄位感到壓迫。
深入了解
A/B 測試的核心流程
步驟 做什麼 關鍵考量 定義目標 決定你要優化什麼指標(點擊率、轉換率、留存率) 一次只測一個主要指標,避免分心 設計變體 製作 B 版本,只改你要測試的那一個變數 改太多東西就不知道是哪個變數造成差異 隨機分組 把用戶隨機分成 A 組和 B 組 隨機很重要,不能讓某類用戶集中在同一組 收集數據 讓測試跑夠久,累積足夠樣本量 太早看結果容易被隨機波動誤導 統計檢定 用 t 檢定或卡方檢定判斷差異是否顯著 p 值 < 0.05 才能說結果不是巧合 做決策 根據結果選擇勝出版本,全面上線 效果不顯著就維持原版,不要硬選
情境判斷
Q1(直覺題): 你想知道把「立即購買」按鈕從藍色改成紅色會不會提升銷售。你應該直接改成紅色上線,還是做 A/B 測試?
→ A/B 測試。顏色偏好因受眾而異,直接改可能降低銷售卻不自知。測試能用數據告訴你真正的答案。
Q2(判斷題): 你的 A/B 測試跑了三天,B 版轉換率比 A 版高 15%,但 p 值是 0.12。你應該宣布 B 版勝出嗎?
→ 不應該。p 值 0.12 表示有 12% 的機率這個差距只是巧合,沒有達到通常要求的 5% 門檻。你應該繼續跑測試直到樣本量夠大,或者接受結果不顯著維持 A 版。但如果商業壓力大、改動風險低,有些團隊會選擇在較寬鬆的門檻下採用 B 版,這是業務判斷而非統計判斷。
相關術語
常見問題
A/B 測試需要多少樣本才夠?
取決於你想偵測多小的差異。如果你期待轉換率從 5% 提升到 6%(相對提升 20%),大約需要每組 3,000 到 5,000 人。差異越小需要的樣本越多,有免費的線上計算器可以幫你估算。
可以同時測試三個以上的版本嗎?
可以,那叫 A/B/n 測試。但版本越多需要的樣本量越大,測試時間也越長,而且要注意多重比較問題,需要用 Bonferroni 校正等方法調整門檻。
A/B 測試有什麼做不到的?
它只能告訴你「哪個版本表現更好」,不能告訴你「為什麼更好」。想了解原因需要搭配用戶訪談、熱圖分析等質性研究方法。