EE（探索與利用）是什麼？完整定義與解說

強化學習最佳化

你有沒有在餐廳點餐時，明明知道常吃那家最穩，卻又想試試新店？

你可以把它想成，AI 一邊要用已知最好策略拿分，一邊又要試新選項，免得錯過更好的答案。

這個拉扯在強化學習特別重要，因為只會守著現有答案，常常會卡在次佳策略。

你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

容易混淆

探索 vs 利用 探索是在試新動作，找還沒發現的好選項。利用是在用已知最好策略，先把眼前獎勵拿滿。最關鍵的區別：要不要冒險試新東西。

探索 vs 貪婪策略 貪婪策略只做目前看起來最好的事。探索與利用是在保留當前收益的同時，還要留一部分資源試新路。最關鍵的區別：有沒有探索預算。

探索 vs 試錯成本 試錯成本越高，探索就越保守。利用可以穩定拿分，但探索才有機會找到更高上限。最關鍵的區別：短期損失和長期發現的平衡。

記住這句就好

要賺現在，也要找未來。

實際案例

推薦系統挑內容 系統要決定要推熱門內容，還是推少數用戶可能更喜歡的新內容。 Before：只推熱門。After：一部分流量拿來試新內容，模型才有機會學到更多偏好。

機器人學新策略 機器人要在熟悉路徑和陌生路徑之間分配嘗試。 Before：永遠走舊路。After：透過探索找到更省時的路線。

算法與應用

常見策略有 epsilon-greedy、UCB 和 Thompson Sampling。

epsilon-greedy 會保留一小部分機率去探索，UCB 會把不確定性也算進分數，Thompson Sampling 則用機率分布抽樣。

真正難的是怎麼在不同階段調整探索比例，前期多試、後期多用，通常比較合理。

情境判斷

Q1（直覺題）： 你在推薦系統裡只推歷史點擊率最高的內容，可能會發生什麼事？

→ 模型會越來越保守，只會強化既有偏好，最後很難發現新內容的潛力。

Q2（判斷題）： 探索比例是不是越高越好？

→ 看情況。前期可以高一點，後期通常要降低；如果試錯成本很高，探索也不能太激進。

常見問題

epsilon 參數要怎麼選？

先從較高的探索比例開始，再隨著學習進行慢慢下降，實際值要看任務表現。

UCB 為什麼會鼓勵探索？

因為它會把「不確定但可能很強」的選項加分，讓模型不只看目前均值。

Thompson Sampling 怎麼做決策？

它會從每個選項的價值分布抽樣，再選當下樣本最高的選項。

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

常見問題

相關術語

延伸學習

資料來源與參考依據