iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論

強化學習怎麼動態調整行動策略?

原題 19

某物流公司導入強化式學習(Reinforcement Learning)優化車隊調度。模型在系統運行過程中,會依據不同配送狀態動態調整行動選擇方式,使決策結果逐步朝較佳績效收斂。上述模型在學習過程中的調整行為,最符合下列哪一項強化式學習核心機制?

白話

一家物流公司把強化式學習(Reinforcement Learning)用在車隊調度上。這個模型在實際運行過程中,會依據當下的配送狀態來調整自己選擇行動的方式,讓決策結果一步步往更好的績效靠攏。

問你:模型在學習過程中依不同配送狀態動態調整行動選擇、逐步收斂到較佳績效,這個行為最符合哪一項強化式學習的核心機制?

點選你的答案。

01 總結

一句話總結

強化學習的核心機制是調整策略函數(Policy Function)來改變行動選擇機率,模型透過執行結果的獎勵回饋,不斷調整「在什麼狀態下該做什麼」的決策邏輯,讓長期報酬逐步提升。

02 情境

先感受問題:物流司機怎麼「越跑越聰明」?

「快閃物流」有 50 輛配送車,調度中心的 AI 系統叫做「路路通」。剛開始路路通什麼都不懂,遇到「台北市下午三點、雨天、訂單量 300 件」這個狀態,隨機決定派幾輛車、走哪條路。

第一週:路路通的決定讓 30% 的包裹遲到,調度績效很差(低獎勵)。

第二週:路路通從這些結果學習,在「雨天」狀態下多派 20% 的車、在「三點下班時段」避開幹道。績效改善,遲到率降到 18%(較高獎勵)。

第三週:路路通繼續微調,遲到率降到 8%。

路路通做的事情,就是在每個狀態下調整「應該怎麼行動的機率分布」。這就是強化學習的策略更新。

03 對照

沒有強化學習之前,車隊調度怎麼做?

在路路通系統導入之前,「快閃物流」的調度靠的是:

  1. 固定規則:每天早上 8 點出 20 輛車,下午 2 點再出 20 輛車,不管當天訂單量和天氣
  2. 人工調度:調度主任憑經驗判斷,下雨天再多叫幾輛,但主任休假就沒辦法
  3. 歷史平均:取去年同期的平均出車數,忽略今天的即時狀況(塞車、大量訂單)
  4. 反應式處理:包裹遲到了才緊急調度,已經無法在當天挽回
  5. 試誤後人工調整規則:每季開會分析,人工修改規則,三個月才能反映一次,調整太慢

這些方法都無法做到「根據每個當下的狀態、持續自動優化行動選擇」。

04 解法

強化學習如何透過策略函數改善決策

路路通的強化學習系統運作邏輯:

狀態(State):現在是什麼情況?時間 + 天氣 + 訂單量 + 車輛剩餘里程。這就是「依不同配送狀態」的含義。

行動(Action):在這個狀態下,出幾輛車、走哪條路、優先配送哪個區域?每種選擇都是一個「行動」。

策略函數(Policy Function):把「狀態」對應到「行動」的規則。一開始策略函數是隨機的,每個行動被選中的機率差不多。

獎勵(Reward):行動後的結果好不好?準時送達率高 = 高獎勵、遲到 = 低獎勵。

策略更新:根據獎勵,調整策略函數。讓能帶來高獎勵的行動在這個狀態下「被選中的機率變高」,讓帶來低獎勵的行動機率降低。

重複這個循環,策略函數越來越精準,路路通越來越聰明。

這就是選項 A 的正確理由:「調整策略函數以改變行動選擇機率」正是強化學習中把績效回饋轉化為決策改進的核心機制

技術版:強化學習的四個核心元素

強化學習(Reinforcement Learning, RL)是機器學習的三大範式之一(另外兩個是監督學習和非監督學習),特色是從與環境的互動中學習,不需要標注資料。

RL 的四個核心元素:

  • Agent(智能體):做決策的主體。路路通就是 Agent。
  • Environment(環境):Agent 互動的世界。物流系統的道路、訂單、天氣就是環境。
  • State(狀態):環境當前的情況描述。Agent 觀察狀態後決定行動。
  • Reward(獎勵):行動後環境給 Agent 的回饋訊號。RL 的目標是最大化長期累積獎勵。

策略(Policy)是什麼:Policy 是 Agent 的決策規則,把 State 對應到 Action。Policy 可以是確定性的(在狀態 S,一定執行行動 A)或機率性的(在狀態 S,執行 A 的機率是 70%,執行 B 的機率是 30%)。調整策略函數就是調整這個對應關係。

RL 跟監督學習的關鍵差異:監督學習需要人工打標籤(正確答案)。RL 沒有正確答案,只有獎勵訊號。RL 的「老師」是環境的回饋,不是人工標注。

為什麼出題者考這題:強化學習是當代 AI 的重要分支,AlphaGo 下圍棋、ChatGPT 的 RLHF 對齊都用到 RL 原理。初級規劃師要能辨識 RL 跟其他學習方式的差異,才能在規劃 AI 專案時選對技術路線。

05 陷阱

為什麼其他選項是錯的

B更新訓練資料分布以降低模型偏差

字面在說什麼

重新取樣或調整訓練資料的組成,讓模型不要偏向某個方向。

為什麼不對

這是監督學習中處理資料偏差的手段,不是強化學習的核心機制。強化學習沒有「訓練資料集」的概念,它的學習來自環境互動的獎勵回饋,不是從資料分布調整。

誰會選錯

看到「模型學習過程中的調整」就聯想到「更新訓練資料」的人。強化學習跟監督學習的學習來源完全不同,要能區分。

C重新分群狀態資料以識別決策類型

字面在說什麼

把狀態資料重新聚類,讓模型能識別出不同類型的決策場景。

為什麼不對

「分群(Clustering)」是非監督學習的工具,不是強化學習的機制。強化學習的重點是在狀態下做什麼行動、獲得什麼獎勵、更新策略,不是去重新分類狀態。

誰會選錯

把「依不同狀態做決策」誤解成「先把狀態分類再決策」的人。RL 的狀態可以連續、不需要預先分群。

D建立正確決策標籤進行誤差修正

字面在說什麼

人工為每個決策情境打上「正確做法」的標籤,讓模型按標籤學習。

為什麼不對

這是監督學習的方式。強化學習的最大特點就是不需要人工打標籤,它從環境的獎懲中自行學習。如果需要建立正確標籤,就退化成監督學習,失去強化學習「從互動中學習」的優勢。

誰會選錯

對強化學習最大的誤解就是「還是要有正確答案」。記住:RL 的獎勵不是正確答案,是結果的好壞評分,由環境自動給出,不需人工標注。

06 變形

同個考點下次怎麼變形

變形 1

強化學習和監督學習最大的差別是什麼?

直覺

兩個都是機器學習,分不清差在哪。

答案

監督學習需要人工標注的正確答案(如「這張圖是貓」)訓練模型。強化學習只有環境的獎懲回饋(「這個決策讓準時率提高了」),不需要人告訴模型正確答案,模型自行從試誤中學習。RL 適合「難以提前定義正確答案、但能定義好壞指標」的問題。

變形 2

AlphaGo 和 ChatGPT 都用到強化學習,但用法不同,如何區分?

直覺

兩個都有強化學習,是做同樣的事嗎?

答案

AlphaGo 的 RL:直接用 RL 讓棋步策略越來越強,獎勵是「贏棋」,Agent 下棋就是訓練。ChatGPT 的 RL(RLHF):用人類偏好評分當獎勵,微調語言模型的輸出,讓回應更符合人類期望,獎勵不是「贏棋」而是「人類喜不喜歡這個回答」。本質一樣,場景和獎勵設計不同。

變形 3

強化學習的「獎勵函數(Reward Function)」設計不好會怎樣?

直覺

反正讓模型自己學,獎勵設計應該沒那麼重要?

答案

獎勵函數設計是 RL 最難的部分。設計不好會導致「獎勵駭客(Reward Hacking)」:模型找到了讓獎勵最大化但不符合設計目標的偷吃步。例如「讓包裹準時送達」的獎勵沒設好,模型可能學會「少接訂單」來提高準時率。獎勵設計是 AI 應用規劃師的關鍵決策。

變形 4

強化學習適合用在哪些現實場景,哪些場景不適合?

直覺

強化學習那麼強,是不是可以解決所有問題?

答案

適合:序列決策(棋盤遊戲、機器人控制、車隊調度)、能定義明確獎勵指標允許大量試誤(模擬環境或低成本試誤)。不適合:獎勵難以量化(如「產生好文章」)、試誤成本高(真實道路測試自駕車)、資料有限(少量標注資料還是監督學習更有效率)。

變形 5

「探索(Exploration)vs 開發(Exploitation)」是強化學習的什麼問題?

直覺

聽過這個名詞但不知道在說什麼。

答案

RL 的核心矛盾:探索是嘗試新的行動看看有沒有更好的策略(但可能帶來低獎勵);開發是執行已知能帶來高獎勵的行動(但可能錯過更好的選擇)。路路通剛學習時要多探索;學成後要多開發。如何平衡這個矛盾,是 RL 演算法設計的核心問題之一(如 ε-greedy 策略)。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 115 年第一次 iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論 第 19 題

查看官方原文 PDF