探索與利用(Exploration vs Exploitation)是什麼?

探索與利用是強化學習中的權衡,探索是指嘗試新動作以發現潛在的更好策略,利用是指使用已知最佳策略以獲得最大獎勵。|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

探索與利用(Exploration vs Exploitation)是什麼? 強化學習最佳化

你有沒有在餐廳點餐時,明明知道常吃那家最穩,卻又想試試新店?

你可以把它想成,AI 一邊要用已知最好策略拿分,一邊又要試新選項,免得錯過更好的答案。

這個拉扯在強化學習特別重要,因為只會守著現有答案,常常會卡在次佳策略。

你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。

容易混淆

探索 vs 利用 探索是在試新動作,找還沒發現的好選項。 利用是在用已知最好策略,先把眼前獎勵拿滿。 最關鍵的區別:要不要冒險試新東西。

探索 vs 貪婪策略 貪婪策略只做目前看起來最好的事。 探索與利用是在保留當前收益的同時,還要留一部分資源試新路。 最關鍵的區別:有沒有探索預算。

探索 vs 試錯成本 試錯成本越高,探索就越保守。 利用可以穩定拿分,但探索才有機會找到更高上限。 最關鍵的區別:短期損失和長期發現的平衡。

記住這句就好

要賺現在,也要找未來。

實際案例

推薦系統挑內容 系統要決定要推熱門內容,還是推少數用戶可能更喜歡的新內容。 Before:只推熱門。After:一部分流量拿來試新內容,模型才有機會學到更多偏好。

機器人學新策略 機器人要在熟悉路徑和陌生路徑之間分配嘗試。 Before:永遠走舊路。After:透過探索找到更省時的路線。

算法與應用

常見策略有 epsilon-greedy、UCB 和 Thompson Sampling。

epsilon-greedy 會保留一小部分機率去探索,UCB 會把不確定性也算進分數,Thompson Sampling 則用機率分布抽樣。

真正難的是怎麼在不同階段調整探索比例,前期多試、後期多用,通常比較合理。

情境判斷

Q1(直覺題): 你在推薦系統裡只推歷史點擊率最高的內容,可能會發生什麼事?

→ 模型會越來越保守,只會強化既有偏好,最後很難發現新內容的潛力。

Q2(判斷題): 探索比例是不是越高越好?

→ 看情況。前期可以高一點,後期通常要降低;如果試錯成本很高,探索也不能太激進。

常見問題

epsilon 參數要怎麼選?

先從較高的探索比例開始,再隨著學習進行慢慢下降,實際值要看任務表現。

UCB 為什麼會鼓勵探索?

因為它會把「不確定但可能很強」的選項加分,讓模型不只看目前均值。

Thompson Sampling 怎麼做決策?

它會從每個選項的價值分布抽樣,再選當下樣本最高的選項。