解析:
敘述 2 錯誤:非監督式學習不需定義正確輸出類別。敘述 3 錯誤:半監督式學習同時使用標註和未標註資料,不是僅用未標註資料。敘述 4 錯誤:自監督式學習從資料本身產生訓練目標,不需人工逐筆標註。其餘敘述 1、5、6 皆正確。
強化學習是一種讓 AI 透過與環境互動,從獎勵和懲罰中學習,進而找到最佳行動策略的方法|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。
你在玩遊戲或調整自動系統時,會不會發現它不是看標準答案,而是在試錯中越做越準?
你可以把強化學習想成小孩拿零用錢做選擇,做對就得到獎勵,做錯就少一點,AI 也是靠這種回饋慢慢學會該怎麼做。
它重要是因為很多任務沒有唯一正解,像下棋、導航、排程,都要看長期結果,不是只看當下那一步對不對。
強化學習 vs 監督式學習
強化學習靠獎勵和懲罰試錯 監督式學習靠有答案的標籤學習 最關鍵的區別是有沒有現成正解。
強化學習 vs 自我對弈
強化學習是整個學習框架 自我對弈是用自己跟自己比賽來產生資料的方法 最關鍵的區別是框架和訓練手法不同。
沒有標準答案時,看長期回報,就用強化學習。
遊戲 AI 練等 遊戲角色每一步都拿到分數或扣分,最後學會怎麼走位、怎麼出招,這就是強化學習最典型的場景。
機器人走迷宮 機器人每次撞牆就扣分,接近出口就加分,跑久了之後會慢慢學會走最短路。
核心元素通常是狀態、動作、獎勵、策略,模型要學的是在不同狀態下該做什麼動作。 探索與利用是關鍵矛盾,太愛嘗試會浪費時間,太快固定答案又可能錯過更好的路。 在實務上,DQN、Policy Gradient、Actor-Critic 都是常見做法,差別在於怎麼估計價值和更新策略。
Q1(直覺題): 一個模型在棋類遊戲中,贏一局就加分、輸一局就扣分,這種學習方式屬於什麼?
Q2(判斷題): 如果每一步都能立刻知道正確答案,還適合用強化學習嗎?
Q:iPAS 常怎麼考強化學習? A:通常會考名詞辨義和基本流程,例如狀態、動作、獎勵各代表什麼,或是 DQN 為什麼能處理較複雜的狀態空間。
A:模型可能學到你不想要的行為,因為它只會最大化分數,不會自己理解你的真正目的。
A:DQN 用深度神經網路近似 Q 值,讓模型可以處理更大的狀態空間。
A:因為它要同時顧安全、效率和舒適,還要在長期回報下做決策,很適合拿來說明強化學習的難點。
關於機器學習不同的學習模式,下列敘述何者錯誤? 1. 監督式學習(Supervised Learning)透過已標註資料學習輸入與目標之間的對應關係,常見任務包含分類與數值預測。 2. 非監督式學習(Unsupervised Learning)雖不需標註資料,但通常需預先定義每筆資料的正確輸出類別以利模型收斂。 3. 半監督式學習(Semi-supervised Learning)在訓練過程中僅利用未標註資料進行特徵學習,並不涉及標註資料。 4. 自監督式學習(Self-supervised Learning)的訓練方式與監督式學習相同,皆需人工逐筆提供標註資料。 5. 強化式學習(Reinforcement Learning)透過與環境互動並依據回饋訊號調整策略,以優化決策行為。 6. 自監督式學習(Self-supervised Learning)通常利用資料本身產生訓練目標,以降低對人工標註資料的依賴。
解析:
敘述 2 錯誤:非監督式學習不需定義正確輸出類別。敘述 3 錯誤:半監督式學習同時使用標註和未標註資料,不是僅用未標註資料。敘述 4 錯誤:自監督式學習從資料本身產生訓練目標,不需人工逐筆標註。其餘敘述 1、5、6 皆正確。
某物流公司導入強化式學習(Reinforcement Learning)優化車隊調度。模型在系統運行過程中,會依據不同配送狀態動態調整行動選擇方式,使決策結果逐步朝較佳績效收斂。上述模型在學習過程中的調整行為,最符合下列哪一項強化式學習核心機制?
解析:
強化式學習的核心機制是透過策略函數(Policy)來決定在不同狀態下選擇哪個行動。模型根據獲得的獎勵調整策略函數,改變行動選擇的機率分佈,使決策逐步趨向最佳。
想測試你對 強化學習 的掌握程度? 開始模擬考