---
title: "A/B測試（A/B Testing）"
slug: a-b-testing
language: zh-TW
source: https://aiterms.tw/terms/a-b-testing
updated_at: 2026-04-29
tags: [模型部署, 模型評估, 統計方法, 最佳化, MLOps]
ipas_term: false
---

# A/B測試（A/B Testing）

> **你有沒有注意過，同一個 App 你跟朋友看到的介面長得不一樣？**
>
> 這不是 bug。很多產品會同時準備兩個版本，隨機分給不同用戶，然後比較哪一版讓更多人點擊、購買、或完成註冊。這就是 A/B 測試：把用戶分成兩組，一組看原本的版本（A），一組看改過的版本（B），用數據決定哪個更好，而不是靠直覺猜。
>
> 為什麼不直接改？因為你覺得「比較好」的設計，用戶不一定買單。把按鈕從藍色改成綠色，轉換率可能提升 3% 也可能下降 5%，不測就不知道。
>
> 就像先用生活中的例子抓住核心用途，再回頭看名詞和公式，理解會穩很多。

### 容易混淆

> **A/B 測試 vs 多變量測試 vs 金絲雀部署**
>
> A/B 測試：同一時間只改一個變數，比較兩個版本的效果差異。
>
> 多變量測試：同時改多個變數的多種組合，找出最佳搭配。
>
> 金絲雀部署：先讓少數用戶用新版本，確認沒問題才全面推出，重點是降低風險而非比較效果。
>
> 最關鍵的區別：A/B 測試的目的是「比較哪個更好」，金絲雀部署的目的是「確認新版不會出事」。

### 記住這句就好

> 兩個版本、隨機分組、用數據判定勝負，不猜。

### 實際案例

> **Netflix 縮圖測試**
>
> Netflix 每部影片都有多張候選縮圖，不是由設計師選「最好看的那張」，而是把不同縮圖隨機展示給不同用戶，追蹤哪張讓最多人點進去看。有些影片光是換一張縮圖，點擊率就差了 20% 以上。
>
> **電商結帳流程**
>
> 一家電商發現購物車放棄率很高，團隊猜測是結帳步驟太多，於是設計了一頁式結帳（B 版）跟原本的三步驟結帳（A 版）做測試。結果出乎意料：三步驟版的轉換率反而更高，因為用戶在一頁式版本中看到太多欄位感到壓迫。

### 深入了解

> **A/B 測試的核心流程**
>
> | 步驟 | 做什麼 | 關鍵考量 |
> |---|---|---|
> | 定義目標 | 決定你要優化什麼指標（點擊率、轉換率、留存率） | 一次只測一個主要指標，避免分心 |
> | 設計變體 | 製作 B 版本，只改你要測試的那一個變數 | 改太多東西就不知道是哪個變數造成差異 |
> | 隨機分組 | 把用戶隨機分成 A 組和 B 組 | 隨機很重要，不能讓某類用戶集中在同一組 |
> | 收集數據 | 讓測試跑夠久，累積足夠樣本量 | 太早看結果容易被隨機波動誤導 |
> | 統計檢定 | 用 t 檢定或卡方檢定判斷差異是否顯著 | p 值 < 0.05 才能說結果不是巧合 |
> | 做決策 | 根據結果選擇勝出版本，全面上線 | 效果不顯著就維持原版，不要硬選 |

### 情境判斷

> **Q1（直覺題）：** 你想知道把「立即購買」按鈕從藍色改成紅色會不會提升銷售。你應該直接改成紅色上線，還是做 A/B 測試？
>
> → A/B 測試。顏色偏好因受眾而異，直接改可能降低銷售卻不自知。測試能用數據告訴你真正的答案。
>
> **Q2（判斷題）：** 你的 A/B 測試跑了三天，B 版轉換率比 A 版高 15%，但 p 值是 0.12。你應該宣布 B 版勝出嗎？
>
> → 不應該。p 值 0.12 表示有 12% 的機率這個差距只是巧合，沒有達到通常要求的 5% 門檻。你應該繼續跑測試直到樣本量夠大，或者接受結果不顯著維持 A 版。但如果商業壓力大、改動風險低，有些團隊會選擇在較寬鬆的門檻下採用 B 版，這是業務判斷而非統計判斷。

### 常見問題

> **Q：A/B 測試需要多少樣本才夠？**
> 取決於你想偵測多小的差異。如果你期待轉換率從 5% 提升到 6%（相對提升 20%），大約需要每組 3,000 到 5,000 人。差異越小需要的樣本越多，有免費的線上計算器可以幫你估算。
>
> **Q：可以同時測試三個以上的版本嗎？**
> 可以，那叫 A/B/n 測試。但版本越多需要的樣本量越大，測試時間也越長，而且要注意多重比較問題，需要用 Bonferroni 校正等方法調整門檻。
>
> **Q：A/B 測試有什麼做不到的？**
> 它只能告訴你「哪個版本表現更好」，不能告訴你「為什麼更好」。想了解原因需要搭配用戶訪談、熱圖分析等質性研究方法。

### 相關術語

> - **假設檢定**：A/B 測試的統計基礎，了解 p 值和顯著性的原理
> - **基準測試**：另一種比較方法，但不是隨機分組實驗，對比讀更清楚
> - **點擊率預測**：A/B 測試常用的優化指標之一
> - **演算法**：A/B 測試背後的分組和分析邏輯都是演算法的應用

---

來源：https://aiterms.tw/terms/a-b-testing
快查頁：https://aiterms.tw/terms/a-b-testing
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-a-b-testing