強化學習怎麼動態調整行動策略?
某物流公司導入強化式學習(Reinforcement Learning)優化車隊調度。模型在系統運行過程中,會依據不同配送狀態動態調整行動選擇方式,使決策結果逐步朝較佳績效收斂。上述模型在學習過程中的調整行為,最符合下列哪一項強化式學習核心機制?
一家物流公司把強化式學習(Reinforcement Learning)用在車隊調度上。這個模型在實際運行過程中,會依據當下的配送狀態來調整自己選擇行動的方式,讓決策結果一步步往更好的績效靠攏。
問你:模型在學習過程中依不同配送狀態動態調整行動選擇、逐步收斂到較佳績效,這個行為最符合哪一項強化式學習的核心機制?
一句話總結
強化學習的核心機制是調整策略函數(Policy Function)來改變行動選擇機率,模型透過執行結果的獎勵回饋,不斷調整「在什麼狀態下該做什麼」的決策邏輯,讓長期報酬逐步提升。
先感受問題:物流司機怎麼「越跑越聰明」?
「快閃物流」有 50 輛配送車,調度中心的 AI 系統叫做「路路通」。剛開始路路通什麼都不懂,遇到「台北市下午三點、雨天、訂單量 300 件」這個狀態,隨機決定派幾輛車、走哪條路。
第一週:路路通的決定讓 30% 的包裹遲到,調度績效很差(低獎勵)。
第二週:路路通從這些結果學習,在「雨天」狀態下多派 20% 的車、在「三點下班時段」避開幹道。績效改善,遲到率降到 18%(較高獎勵)。
第三週:路路通繼續微調,遲到率降到 8%。
路路通做的事情,就是在每個狀態下調整「應該怎麼行動的機率分布」。這就是強化學習的策略更新。
沒有強化學習之前,車隊調度怎麼做?
在路路通系統導入之前,「快閃物流」的調度靠的是:
- 固定規則:每天早上 8 點出 20 輛車,下午 2 點再出 20 輛車,不管當天訂單量和天氣
- 人工調度:調度主任憑經驗判斷,下雨天再多叫幾輛,但主任休假就沒辦法
- 歷史平均:取去年同期的平均出車數,忽略今天的即時狀況(塞車、大量訂單)
- 反應式處理:包裹遲到了才緊急調度,已經無法在當天挽回
- 試誤後人工調整規則:每季開會分析,人工修改規則,三個月才能反映一次,調整太慢
這些方法都無法做到「根據每個當下的狀態、持續自動優化行動選擇」。
強化學習如何透過策略函數改善決策
路路通的強化學習系統運作邏輯:
狀態(State):現在是什麼情況?時間 + 天氣 + 訂單量 + 車輛剩餘里程。這就是「依不同配送狀態」的含義。
行動(Action):在這個狀態下,出幾輛車、走哪條路、優先配送哪個區域?每種選擇都是一個「行動」。
策略函數(Policy Function):把「狀態」對應到「行動」的規則。一開始策略函數是隨機的,每個行動被選中的機率差不多。
獎勵(Reward):行動後的結果好不好?準時送達率高 = 高獎勵、遲到 = 低獎勵。
策略更新:根據獎勵,調整策略函數。讓能帶來高獎勵的行動在這個狀態下「被選中的機率變高」,讓帶來低獎勵的行動機率降低。
重複這個循環,策略函數越來越精準,路路通越來越聰明。
這就是選項 A 的正確理由:「調整策略函數以改變行動選擇機率」正是強化學習中把績效回饋轉化為決策改進的核心機制。
技術版:強化學習的四個核心元素
強化學習(Reinforcement Learning, RL)是機器學習的三大範式之一(另外兩個是監督學習和非監督學習),特色是從與環境的互動中學習,不需要標注資料。
RL 的四個核心元素:
- Agent(智能體):做決策的主體。路路通就是 Agent。
- Environment(環境):Agent 互動的世界。物流系統的道路、訂單、天氣就是環境。
- State(狀態):環境當前的情況描述。Agent 觀察狀態後決定行動。
- Reward(獎勵):行動後環境給 Agent 的回饋訊號。RL 的目標是最大化長期累積獎勵。
策略(Policy)是什麼:Policy 是 Agent 的決策規則,把 State 對應到 Action。Policy 可以是確定性的(在狀態 S,一定執行行動 A)或機率性的(在狀態 S,執行 A 的機率是 70%,執行 B 的機率是 30%)。調整策略函數就是調整這個對應關係。
RL 跟監督學習的關鍵差異:監督學習需要人工打標籤(正確答案)。RL 沒有正確答案,只有獎勵訊號。RL 的「老師」是環境的回饋,不是人工標注。
為什麼出題者考這題:強化學習是當代 AI 的重要分支,AlphaGo 下圍棋、ChatGPT 的 RLHF 對齊都用到 RL 原理。初級規劃師要能辨識 RL 跟其他學習方式的差異,才能在規劃 AI 專案時選對技術路線。
為什麼其他選項是錯的
B更新訓練資料分布以降低模型偏差
重新取樣或調整訓練資料的組成,讓模型不要偏向某個方向。
這是監督學習中處理資料偏差的手段,不是強化學習的核心機制。強化學習沒有「訓練資料集」的概念,它的學習來自環境互動的獎勵回饋,不是從資料分布調整。
看到「模型學習過程中的調整」就聯想到「更新訓練資料」的人。強化學習跟監督學習的學習來源完全不同,要能區分。
C重新分群狀態資料以識別決策類型
把狀態資料重新聚類,讓模型能識別出不同類型的決策場景。
「分群(Clustering)」是非監督學習的工具,不是強化學習的機制。強化學習的重點是在狀態下做什麼行動、獲得什麼獎勵、更新策略,不是去重新分類狀態。
把「依不同狀態做決策」誤解成「先把狀態分類再決策」的人。RL 的狀態可以連續、不需要預先分群。
D建立正確決策標籤進行誤差修正
人工為每個決策情境打上「正確做法」的標籤,讓模型按標籤學習。
這是監督學習的方式。強化學習的最大特點就是不需要人工打標籤,它從環境的獎懲中自行學習。如果需要建立正確標籤,就退化成監督學習,失去強化學習「從互動中學習」的優勢。
對強化學習最大的誤解就是「還是要有正確答案」。記住:RL 的獎勵不是正確答案,是結果的好壞評分,由環境自動給出,不需人工標注。
同個考點下次怎麼變形
強化學習和監督學習最大的差別是什麼?
兩個都是機器學習,分不清差在哪。
監督學習需要人工標注的正確答案(如「這張圖是貓」)訓練模型。強化學習只有環境的獎懲回饋(「這個決策讓準時率提高了」),不需要人告訴模型正確答案,模型自行從試誤中學習。RL 適合「難以提前定義正確答案、但能定義好壞指標」的問題。
AlphaGo 和 ChatGPT 都用到強化學習,但用法不同,如何區分?
兩個都有強化學習,是做同樣的事嗎?
AlphaGo 的 RL:直接用 RL 讓棋步策略越來越強,獎勵是「贏棋」,Agent 下棋就是訓練。ChatGPT 的 RL(RLHF):用人類偏好評分當獎勵,微調語言模型的輸出,讓回應更符合人類期望,獎勵不是「贏棋」而是「人類喜不喜歡這個回答」。本質一樣,場景和獎勵設計不同。
強化學習的「獎勵函數(Reward Function)」設計不好會怎樣?
反正讓模型自己學,獎勵設計應該沒那麼重要?
獎勵函數設計是 RL 最難的部分。設計不好會導致「獎勵駭客(Reward Hacking)」:模型找到了讓獎勵最大化但不符合設計目標的偷吃步。例如「讓包裹準時送達」的獎勵沒設好,模型可能學會「少接訂單」來提高準時率。獎勵設計是 AI 應用規劃師的關鍵決策。
強化學習適合用在哪些現實場景,哪些場景不適合?
強化學習那麼強,是不是可以解決所有問題?
適合:序列決策(棋盤遊戲、機器人控制、車隊調度)、能定義明確獎勵指標、允許大量試誤(模擬環境或低成本試誤)。不適合:獎勵難以量化(如「產生好文章」)、試誤成本高(真實道路測試自駕車)、資料有限(少量標注資料還是監督學習更有效率)。
「探索(Exploration)vs 開發(Exploitation)」是強化學習的什麼問題?
聽過這個名詞但不知道在說什麼。
RL 的核心矛盾:探索是嘗試新的行動看看有沒有更好的策略(但可能帶來低獎勵);開發是執行已知能帶來高獎勵的行動(但可能錯過更好的選擇)。路路通剛學習時要多探索;學成後要多開發。如何平衡這個矛盾,是 RL 演算法設計的核心問題之一(如 ε-greedy 策略)。
想再往下看,這 5 個
- 強化學習(Reinforcement Learning)機器學習三大範式之一,Agent 透過與環境互動和獎懲回饋自主學習決策策略,不需標注資料
- 獎勵函數(Reward Function)定義強化學習中行動好壞的評分機制,設計不當會導致模型學到偏離目標的行為(獎勵駭客)
- 人類回饋強化學習(RLHF)以人類偏好評分作為獎勵訊號微調語言模型,是 ChatGPT 等 LLM 的對齊技術,策略函數概念同樣適用
- 馬可夫決策過程(Markov Decision Process)強化學習的數學框架,包含狀態、行動、獎勵四要素,是理解策略函數調整機制的理論基礎
- 策略梯度(Policy Gradient)直接優化策略函數的強化學習演算法,透過梯度上升改變行動選擇機率,是本題正解機制的具體實現方法