iPAS AI 應用規劃師初級　科目一　人工智慧基礎概論

強化學習怎麼動態調整行動策略？

原題 19

某物流公司導入強化式學習（Reinforcement Learning）優化車隊調度。模型在系統運行過程中，會依據不同配送狀態動態調整行動選擇方式，使決策結果逐步朝較佳績效收斂。上述模型在學習過程中的調整行為，最符合下列哪一項強化式學習核心機制？

白話

一家物流公司把強化式學習（Reinforcement Learning）用在車隊調度上。這個模型在實際運行過程中，會依據當下的配送狀態來調整自己選擇行動的方式，讓決策結果一步步往更好的績效靠攏。

問你：模型在學習過程中依不同配送狀態動態調整行動選擇、逐步收斂到較佳績效，這個行為最符合哪一項強化式學習的核心機制？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

強化學習的核心機制是調整策略函數（Policy Function）來改變行動選擇機率，模型透過執行結果的獎勵回饋，不斷調整「在什麼狀態下該做什麼」的決策邏輯，讓長期報酬逐步提升。

02　情境

先感受問題：物流司機怎麼「越跑越聰明」？

「快閃物流」有 50 輛配送車，調度中心的 AI 系統叫做「路路通」。剛開始路路通什麼都不懂，遇到「台北市下午三點、雨天、訂單量 300 件」這個狀態，隨機決定派幾輛車、走哪條路。

第一週：路路通的決定讓 30% 的包裹遲到，調度績效很差（低獎勵）。

第二週：路路通從這些結果學習，在「雨天」狀態下多派 20% 的車、在「三點下班時段」避開幹道。績效改善，遲到率降到 18%（較高獎勵）。

第三週：路路通繼續微調，遲到率降到 8%。

路路通做的事情，就是在每個狀態下調整「應該怎麼行動的機率分布」。這就是強化學習的策略更新。

03　對照

沒有強化學習之前，車隊調度怎麼做？

在路路通系統導入之前，「快閃物流」的調度靠的是：

固定規則：每天早上 8 點出 20 輛車，下午 2 點再出 20 輛車，不管當天訂單量和天氣
人工調度：調度主任憑經驗判斷，下雨天再多叫幾輛，但主任休假就沒辦法
歷史平均：取去年同期的平均出車數，忽略今天的即時狀況（塞車、大量訂單）
反應式處理：包裹遲到了才緊急調度，已經無法在當天挽回
試誤後人工調整規則：每季開會分析，人工修改規則，三個月才能反映一次，調整太慢

這些方法都無法做到「根據每個當下的狀態、持續自動優化行動選擇」。

04　解法

強化學習如何透過策略函數改善決策

路路通的強化學習系統運作邏輯：

狀態（State）：現在是什麼情況？時間 + 天氣 + 訂單量 + 車輛剩餘里程。這就是「依不同配送狀態」的含義。

行動（Action）：在這個狀態下，出幾輛車、走哪條路、優先配送哪個區域？每種選擇都是一個「行動」。

策略函數（Policy Function）：把「狀態」對應到「行動」的規則。一開始策略函數是隨機的，每個行動被選中的機率差不多。

獎勵（Reward）：行動後的結果好不好？準時送達率高 = 高獎勵、遲到 = 低獎勵。

策略更新：根據獎勵，調整策略函數。讓能帶來高獎勵的行動在這個狀態下「被選中的機率變高」，讓帶來低獎勵的行動機率降低。

重複這個循環，策略函數越來越精準，路路通越來越聰明。

這就是選項 A 的正確理由：「調整策略函數以改變行動選擇機率」正是強化學習中把績效回饋轉化為決策改進的核心機制。

技術版：強化學習的四個核心元素

強化學習（Reinforcement Learning, RL）是機器學習的三大範式之一（另外兩個是監督學習和非監督學習），特色是從與環境的互動中學習，不需要標注資料。

RL 的四個核心元素：

Agent（智能體）：做決策的主體。路路通就是 Agent。
Environment（環境）：Agent 互動的世界。物流系統的道路、訂單、天氣就是環境。
State（狀態）：環境當前的情況描述。Agent 觀察狀態後決定行動。
Reward（獎勵）：行動後環境給 Agent 的回饋訊號。RL 的目標是最大化長期累積獎勵。

策略（Policy）是什麼：Policy 是 Agent 的決策規則，把 State 對應到 Action。Policy 可以是確定性的（在狀態 S，一定執行行動 A）或機率性的（在狀態 S，執行 A 的機率是 70%，執行 B 的機率是 30%）。調整策略函數就是調整這個對應關係。

RL 跟監督學習的關鍵差異：監督學習需要人工打標籤（正確答案）。RL 沒有正確答案，只有獎勵訊號。RL 的「老師」是環境的回饋，不是人工標注。

為什麼出題者考這題：強化學習是當代 AI 的重要分支，AlphaGo 下圍棋、ChatGPT 的 RLHF 對齊都用到 RL 原理。初級規劃師要能辨識 RL 跟其他學習方式的差異，才能在規劃 AI 專案時選對技術路線。

05　陷阱

為什麼其他選項是錯的

B更新訓練資料分布以降低模型偏差

字面在說什麼

重新取樣或調整訓練資料的組成，讓模型不要偏向某個方向。

為什麼不對

這是監督學習中處理資料偏差的手段，不是強化學習的核心機制。強化學習沒有「訓練資料集」的概念，它的學習來自環境互動的獎勵回饋，不是從資料分布調整。

誰會選錯

看到「模型學習過程中的調整」就聯想到「更新訓練資料」的人。強化學習跟監督學習的學習來源完全不同，要能區分。

C重新分群狀態資料以識別決策類型

字面在說什麼

把狀態資料重新聚類，讓模型能識別出不同類型的決策場景。

為什麼不對

「分群（Clustering）」是非監督學習的工具，不是強化學習的機制。強化學習的重點是在狀態下做什麼行動、獲得什麼獎勵、更新策略，不是去重新分類狀態。

誰會選錯

把「依不同狀態做決策」誤解成「先把狀態分類再決策」的人。RL 的狀態可以連續、不需要預先分群。

D建立正確決策標籤進行誤差修正

字面在說什麼

人工為每個決策情境打上「正確做法」的標籤，讓模型按標籤學習。

為什麼不對

這是監督學習的方式。強化學習的最大特點就是不需要人工打標籤，它從環境的獎懲中自行學習。如果需要建立正確標籤，就退化成監督學習，失去強化學習「從互動中學習」的優勢。

誰會選錯

對強化學習最大的誤解就是「還是要有正確答案」。記住：RL 的獎勵不是正確答案，是結果的好壞評分，由環境自動給出，不需人工標注。

06　變形

同個考點下次怎麼變形

變形 1

強化學習和監督學習最大的差別是什麼？

直覺

兩個都是機器學習，分不清差在哪。

答案

監督學習需要人工標注的正確答案（如「這張圖是貓」）訓練模型。強化學習只有環境的獎懲回饋（「這個決策讓準時率提高了」），不需要人告訴模型正確答案，模型自行從試誤中學習。RL 適合「難以提前定義正確答案、但能定義好壞指標」的問題。

變形 2

AlphaGo 和 ChatGPT 都用到強化學習，但用法不同，如何區分？

直覺

兩個都有強化學習，是做同樣的事嗎？

答案

AlphaGo 的 RL：直接用 RL 讓棋步策略越來越強，獎勵是「贏棋」，Agent 下棋就是訓練。ChatGPT 的 RL（RLHF）：用人類偏好評分當獎勵，微調語言模型的輸出，讓回應更符合人類期望，獎勵不是「贏棋」而是「人類喜不喜歡這個回答」。本質一樣，場景和獎勵設計不同。

變形 3

強化學習的「獎勵函數（Reward Function）」設計不好會怎樣？

直覺

反正讓模型自己學，獎勵設計應該沒那麼重要？

答案

獎勵函數設計是 RL 最難的部分。設計不好會導致「獎勵駭客（Reward Hacking）」：模型找到了讓獎勵最大化但不符合設計目標的偷吃步。例如「讓包裹準時送達」的獎勵沒設好，模型可能學會「少接訂單」來提高準時率。獎勵設計是 AI 應用規劃師的關鍵決策。

變形 4

強化學習適合用在哪些現實場景，哪些場景不適合？

直覺

強化學習那麼強，是不是可以解決所有問題？

答案

適合：序列決策（棋盤遊戲、機器人控制、車隊調度）、能定義明確獎勵指標、允許大量試誤（模擬環境或低成本試誤）。不適合：獎勵難以量化（如「產生好文章」）、試誤成本高（真實道路測試自駕車）、資料有限（少量標注資料還是監督學習更有效率）。

變形 5

「探索（Exploration）vs 開發（Exploitation）」是強化學習的什麼問題？

直覺

聽過這個名詞但不知道在說什麼。

答案

RL 的核心矛盾：探索是嘗試新的行動看看有沒有更好的策略（但可能帶來低獎勵）；開發是執行已知能帶來高獎勵的行動（但可能錯過更好的選擇）。路路通剛學習時要多探索；學成後要多開發。如何平衡這個矛盾，是 RL 演算法設計的核心問題之一（如 ε-greedy 策略）。

07　延伸

想再往下看，這 5 個

強化學習（Reinforcement Learning）機器學習三大範式之一，Agent 透過與環境互動和獎懲回饋自主學習決策策略，不需標注資料
獎勵函數（Reward Function）定義強化學習中行動好壞的評分機制，設計不當會導致模型學到偏離目標的行為（獎勵駭客）
人類回饋強化學習（RLHF）以人類偏好評分作為獎勵訊號微調語言模型，是 ChatGPT 等 LLM 的對齊技術，策略函數概念同樣適用
馬可夫決策過程（Markov Decision Process）強化學習的數學框架，包含狀態、行動、獎勵四要素，是理解策略函數調整機制的理論基礎
策略梯度（Policy Gradient）直接優化策略函數的強化學習演算法，透過梯度上升改變行動選擇機率，是本題正解機制的具體實現方法