探索與利用是什麼？

Exploration vs Exploitation — 探索與利用的完整解釋

探索與利用是強化學習中的權衡，探索是指嘗試新動作以發現潛在的更好策略，利用是指使用已知最佳策略以獲得最大獎勵。

容易混淆

探索 vs 利用 探索是在試新動作，找還沒發現的好選項。利用是在用已知最好策略，先把眼前獎勵拿滿。最關鍵的區別：要不要冒險試新東西。

探索 vs 貪婪策略 貪婪策略只做目前看起來最好的事。探索與利用是在保留當前收益的同時，還要留一部分資源試新路。最關鍵的區別：有沒有探索預算。

探索 vs 試錯成本 試錯成本越高，探索就越保守。利用可以穩定拿分，但探索才有機會找到更高上限。最關鍵的區別：短期損失和長期發現的平衡。

記住這句就好

要賺現在，也要找未來。

實際案例

推薦系統挑內容 系統要決定要推熱門內容，還是推少數用戶可能更喜歡的新內容。 Before：只推熱門。After：一部分流量拿來試新內容，模型才有機會學到更多偏好。

機器人學新策略 機器人要在熟悉路徑和陌生路徑之間分配嘗試。 Before：永遠走舊路。After：透過探索找到更省時的路線。

算法與應用

常見策略有 epsilon-greedy、UCB 和 Thompson Sampling。

epsilon-greedy 會保留一小部分機率去探索，UCB 會把不確定性也算進分數，Thompson Sampling 則用機率分布抽樣。

真正難的是怎麼在不同階段調整探索比例，前期多試、後期多用，通常比較合理。

情境判斷

Q1（直覺題）： 你在推薦系統裡只推歷史點擊率最高的內容，可能會發生什麼事？

→ 模型會越來越保守，只會強化既有偏好，最後很難發現新內容的潛力。

Q2（判斷題）： 探索比例是不是越高越好？

→ 看情況。前期可以高一點，後期通常要降低；如果試錯成本很高，探索也不能太激進。

常見問題

epsilon 參數要怎麼選？

先從較高的探索比例開始，再隨著學習進行慢慢下降，實際值要看任務表現。

UCB 為什麼會鼓勵探索？

因為它會把「不確定但可能很強」的選項加分，讓模型不只看目前均值。

Thompson Sampling 怎麼做決策？

它會從每個選項的價值分布抽樣，再選當下樣本最高的選項。

← 回到探索與利用快查頁

探索與利用是什麼？

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

相關術語

相關術語

常見問題

epsilon 參數要怎麼選？

UCB 為什麼會鼓勵探索？

Thompson Sampling 怎麼做決策？

探索與利用 是什麼？

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

相關術語

相關術語

常見問題

epsilon 參數要怎麼選？

UCB 為什麼會鼓勵探索？

Thompson Sampling 怎麼做決策？

探索與利用是什麼？