探索與利用 是什麼?
Exploration vs Exploitation — 探索與利用 的完整解釋
探索與利用是強化學習中的權衡,探索是指嘗試新動作以發現潛在的更好策略,利用是指使用已知最佳策略以獲得最大獎勵。
容易混淆
探索 vs 利用 探索是在試新動作,找還沒發現的好選項。 利用是在用已知最好策略,先把眼前獎勵拿滿。 最關鍵的區別:要不要冒險試新東西。
探索 vs 貪婪策略 貪婪策略只做目前看起來最好的事。 探索與利用是在保留當前收益的同時,還要留一部分資源試新路。 最關鍵的區別:有沒有探索預算。
探索 vs 試錯成本 試錯成本越高,探索就越保守。 利用可以穩定拿分,但探索才有機會找到更高上限。 最關鍵的區別:短期損失和長期發現的平衡。
記住這句就好
要賺現在,也要找未來。
實際案例
推薦系統挑內容 系統要決定要推熱門內容,還是推少數用戶可能更喜歡的新內容。 Before:只推熱門。After:一部分流量拿來試新內容,模型才有機會學到更多偏好。
機器人學新策略 機器人要在熟悉路徑和陌生路徑之間分配嘗試。 Before:永遠走舊路。After:透過探索找到更省時的路線。
算法與應用
常見策略有 epsilon-greedy、UCB 和 Thompson Sampling。
epsilon-greedy 會保留一小部分機率去探索,UCB 會把不確定性也算進分數,Thompson Sampling 則用機率分布抽樣。
真正難的是怎麼在不同階段調整探索比例,前期多試、後期多用,通常比較合理。
情境判斷
Q1(直覺題): 你在推薦系統裡只推歷史點擊率最高的內容,可能會發生什麼事?
→ 模型會越來越保守,只會強化既有偏好,最後很難發現新內容的潛力。
Q2(判斷題): 探索比例是不是越高越好?
→ 看情況。前期可以高一點,後期通常要降低;如果試錯成本很高,探索也不能太激進。
相關術語
常見問題
epsilon 參數要怎麼選?
先從較高的探索比例開始,再隨著學習進行慢慢下降,實際值要看任務表現。
UCB 為什麼會鼓勵探索?
因為它會把「不確定但可能很強」的選項加分,讓模型不只看目前均值。
Thompson Sampling 怎麼做決策?
它會從每個選項的價值分布抽樣,再選當下樣本最高的選項。