內容簡介
本書是繼《Easy RL:強化學習教程》(俗稱「蘑菇書」)之後,為強化學習的讀者專門打造的一本深入實踐的全新教程。全書大部分內容基於3位作者的實踐經驗,涵蓋馬爾可夫決策過程、動態規劃、免模型預測、免模型控制、深度學習基礎、DQN算法、DQN算法進階、策略梯度、Actor-Critic算法、DDPG與TD3算法、PPO算法等內容,旨在幫助讀者快速入門強化學習的代碼實踐,並輔以一套開源代碼框架「JoyRL」,便於讀者適應業界應用研究風格的代碼。 與「蘑菇書」不同,本書針對強化學習核心理論進行提煉,並串聯知識點,重視強化學習代碼實踐的指導而不是對於理論的詳細講解。本書適合具有一定編程基礎且希望快速進入實踐應用階段的讀者閱讀。作者簡介
楊毅遠,牛津大學計算機系博士研究生,碩士畢業於清華大學。Datawhale成員,《Easy RL:強化學習教程》作者,主要研究方向為時間序列、數據挖掘、智能感測系統,深度學習,曾獲國家獎學金、北京市優秀畢業生、清華大學優秀碩士學位論文、全國大學生智能汽車競賽總冠軍等榮譽,發表SCI/EI論文多篇。目錄
第1章 緒論