A/B測試（A/B Testing）是什麼？AI 術語完整說明

Q: A/B 測試需要多少樣本才夠？

取決於你想偵測多小的差異。如果你期待轉換率從 5% 提升到 6%（相對提升 20%），大約需要每組 3,000 到 5,000 人。差異越小需要的樣本越多，有免費的線上計算器可以幫你估算。

Q: 可以同時測試三個以上的版本嗎？

可以，那叫 A/B/n 測試。但版本越多需要的樣本量越大，測試時間也越長，而且要注意多重比較問題，需要用 Bonferroni 校正等方法調整門檻。

Q: A/B 測試有什麼做不到的？

它只能告訴你「哪個版本表現更好」，不能告訴你「為什麼更好」。想了解原因需要搭配用戶訪談、熱圖分析等質性研究方法。

模型部署模型評估

你有沒有注意過，同一個 App 你跟朋友看到的介面長得不一樣？

這不是 bug。很多產品會同時準備兩個版本，隨機分給不同用戶，然後比較哪一版讓更多人點擊、購買、或完成註冊。這就是 A/B 測試：把用戶分成兩組，一組看原本的版本（A），一組看改過的版本（B），用數據決定哪個更好，而不是靠直覺猜。

為什麼不直接改？因為你覺得「比較好」的設計，用戶不一定買單。把按鈕從藍色改成綠色，轉換率可能提升 3% 也可能下降 5%，不測就不知道。

就像先用生活中的例子抓住核心用途，再回頭看名詞和公式，理解會穩很多。

容易混淆

A/B 測試 vs 多變量測試 vs 金絲雀部署

A/B 測試：同一時間只改一個變數，比較兩個版本的效果差異。

多變量測試：同時改多個變數的多種組合，找出最佳搭配。

金絲雀部署：先讓少數用戶用新版本，確認沒問題才全面推出，重點是降低風險而非比較效果。

最關鍵的區別：A/B 測試的目的是「比較哪個更好」，金絲雀部署的目的是「確認新版不會出事」。

記住這句就好

兩個版本、隨機分組、用數據判定勝負，不猜。

實際案例

Netflix 縮圖測試

Netflix 每部影片都有多張候選縮圖，不是由設計師選「最好看的那張」，而是把不同縮圖隨機展示給不同用戶，追蹤哪張讓最多人點進去看。有些影片光是換一張縮圖，點擊率就差了 20% 以上。

電商結帳流程

一家電商發現購物車放棄率很高，團隊猜測是結帳步驟太多，於是設計了一頁式結帳（B 版）跟原本的三步驟結帳（A 版）做測試。結果出乎意料：三步驟版的轉換率反而更高，因為用戶在一頁式版本中看到太多欄位感到壓迫。

深入了解

A/B 測試的核心流程

步驟做什麼關鍵考量

定義目標決定你要優化什麼指標（點擊率、轉換率、留存率）一次只測一個主要指標，避免分心

設計變體製作 B 版本，只改你要測試的那一個變數改太多東西就不知道是哪個變數造成差異

隨機分組把用戶隨機分成 A 組和 B 組隨機很重要，不能讓某類用戶集中在同一組

收集數據讓測試跑夠久，累積足夠樣本量太早看結果容易被隨機波動誤導

統計檢定用 t 檢定或卡方檢定判斷差異是否顯著 p 值 < 0.05 才能說結果不是巧合

做決策根據結果選擇勝出版本，全面上線效果不顯著就維持原版，不要硬選

步驟	做什麼	關鍵考量
定義目標	決定你要優化什麼指標（點擊率、轉換率、留存率）	一次只測一個主要指標，避免分心
設計變體	製作 B 版本，只改你要測試的那一個變數	改太多東西就不知道是哪個變數造成差異
隨機分組	把用戶隨機分成 A 組和 B 組	隨機很重要，不能讓某類用戶集中在同一組
收集數據	讓測試跑夠久，累積足夠樣本量	太早看結果容易被隨機波動誤導
統計檢定	用 t 檢定或卡方檢定判斷差異是否顯著	p 值 < 0.05 才能說結果不是巧合
做決策	根據結果選擇勝出版本，全面上線	效果不顯著就維持原版，不要硬選

情境判斷

Q1（直覺題）： 你想知道把「立即購買」按鈕從藍色改成紅色會不會提升銷售。你應該直接改成紅色上線，還是做 A/B 測試？

→ A/B 測試。顏色偏好因受眾而異，直接改可能降低銷售卻不自知。測試能用數據告訴你真正的答案。

Q2（判斷題）： 你的 A/B 測試跑了三天，B 版轉換率比 A 版高 15%，但 p 值是 0.12。你應該宣布 B 版勝出嗎？

→ 不應該。p 值 0.12 表示有 12% 的機率這個差距只是巧合，沒有達到通常要求的 5% 門檻。你應該繼續跑測試直到樣本量夠大，或者接受結果不顯著維持 A 版。但如果商業壓力大、改動風險低，有些團隊會選擇在較寬鬆的門檻下採用 B 版，這是業務判斷而非統計判斷。

常見問題

A/B 測試需要多少樣本才夠？

取決於你想偵測多小的差異。如果你期待轉換率從 5% 提升到 6%（相對提升 20%），大約需要每組 3,000 到 5,000 人。差異越小需要的樣本越多，有免費的線上計算器可以幫你估算。

可以同時測試三個以上的版本嗎？

可以，那叫 A/B/n 測試。但版本越多需要的樣本量越大，測試時間也越長，而且要注意多重比較問題，需要用 Bonferroni 校正等方法調整門檻。

A/B 測試有什麼做不到的？