---
title: "探索與利用（Exploration vs Exploitation）"
slug: exploration-vs-exploitation
language: zh-TW
source: https://aiterms.tw/terms/exploration-vs-exploitation
updated_at: 2026-04-29
tags: [強化學習, 最佳化, AI基礎, 模型訓練, 機器學習, 統計方法]
ipas_term: false
---

# 探索與利用（Exploration vs Exploitation）

> **你有沒有在餐廳點餐時，明明知道常吃那家最穩，卻又想試試新店？**
>
> 你可以把它想成，AI 一邊要用已知最好策略拿分，一邊又要試新選項，免得錯過更好的答案。
>
> 這個拉扯在強化學習特別重要，因為只會守著現有答案，常常會卡在次佳策略。
>
> 你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

### 容易混淆

> **探索 vs 利用**
> 探索是在試新動作，找還沒發現的好選項。
> 利用是在用已知最好策略，先把眼前獎勵拿滿。
> 最關鍵的區別：要不要冒險試新東西。
>
> **探索 vs 貪婪策略**
> 貪婪策略只做目前看起來最好的事。
> 探索與利用是在保留當前收益的同時，還要留一部分資源試新路。
> 最關鍵的區別：有沒有探索預算。
>
> **探索 vs 試錯成本**
> 試錯成本越高，探索就越保守。
> 利用可以穩定拿分，但探索才有機會找到更高上限。
> 最關鍵的區別：短期損失和長期發現的平衡。

### 記住這句就好

> 要賺現在，也要找未來。

### 實際案例

> **推薦系統挑內容**
> 系統要決定要推熱門內容，還是推少數用戶可能更喜歡的新內容。
> Before：只推熱門。After：一部分流量拿來試新內容，模型才有機會學到更多偏好。
>
> **機器人學新策略**
> 機器人要在熟悉路徑和陌生路徑之間分配嘗試。
> Before：永遠走舊路。After：透過探索找到更省時的路線。

### 算法與應用

> 常見策略有 epsilon-greedy、UCB 和 Thompson Sampling。
>
> epsilon-greedy 會保留一小部分機率去探索，UCB 會把不確定性也算進分數，Thompson Sampling 則用機率分布抽樣。
>
> 真正難的是怎麼在不同階段調整探索比例，前期多試、後期多用，通常比較合理。

### 情境判斷

> **Q1（直覺題）：** 你在推薦系統裡只推歷史點擊率最高的內容，可能會發生什麼事？
>
> → 模型會越來越保守，只會強化既有偏好，最後很難發現新內容的潛力。
>
> **Q2（判斷題）：** 探索比例是不是越高越好？
>
> → 看情況。前期可以高一點，後期通常要降低；如果試錯成本很高，探索也不能太激進。

### 常見問題

> **Q：epsilon 參數要怎麼選？**
> 先從較高的探索比例開始，再隨著學習進行慢慢下降，實際值要看任務表現。
>
> **Q：UCB 為什麼會鼓勵探索？**
> 因為它會把「不確定但可能很強」的選項加分，讓模型不只看目前均值。
>
> **Q：Thompson Sampling 怎麼做決策？**
> 它會從每個選項的價值分布抽樣，再選當下樣本最高的選項。

### 相關術語

> - **強化學習**：探索與利用是它最核心的權衡之一。
> - **貝氏最佳化**：它也常面臨探索和利用的平衡。
> - **多代理系統**：多個代理一起學時，這個平衡會更複雜。
> - **馬可夫決策過程**：這是理解行為與報酬關係的基本框架。

---

來源：https://aiterms.tw/terms/exploration-vs-exploitation
快查頁：https://aiterms.tw/terms/exploration-vs-exploitation
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-exploration-vs-exploitation