編輯推薦
本書旨在以一種易於理解的方式解釋強化學習和最優控制背後的科學,讀者只需要具有微積分和矩陣代數背景即可。本書的獨特之處在於通過算法設計來獲得學習算法最快收斂速度,以及對為什麼強化學習有時會失敗的洞見。本書通過使用更直觀的確定性探索代替隨機探索進行學習,從一開始就避免了高級隨機過程理論。一旦讀者理解了這些思想,就不難掌握植根于隨機控制的技術。本書共分為兩部分:第一部分介紹無雜訊情況下的基礎知識;第二部分介紹強化學習與隨機控制。本書適合控制相關專業研究生、高年級本科生,以及對控制工程和強化學習感興趣的工程師閱讀。內容簡介
本書旨在以具有微積分和矩陣代數背景的學生可以理解的方式,解釋強化學習和優化控制背後的科學。本書的一個獨特重點是算法設計,以獲得學習算法的快收斂速度,以及對強化學習有時失敗的原因的洞察。一開始就避開了高級隨機過程理論,用更直觀的確定性探測來代替學習的隨機探索。一旦理解了這些思想,掌握植根于隨機控制的技術就不難了。這些主題在本書的第二部分有所涉及,從馬爾科夫鏈理論開始,以對強化學習的行為者批評方法的全新審視結束。作者簡介
王佔山,東北大學教授,博士生導師。入選教育部新世紀優秀人才,是遼寧省優秀專家、遼寧省「興遼英才計劃」特聘教授、遼寧省優秀博士后,獲得遼寧省優秀博士學位論文和全國百篇優秀博士學位論文提名,於2018-2020年獲得中國自動化學會優秀博士指導教師和遼寧省優秀博士指導教師榮譽。作為主要完成人,獲國家科技進步二等獎1項、國家自然科學二等獎1項、省部級自然科學一等獎4項、IEEE TNN最佳論文獎1項。在穩定性、故障診斷和容錯控制、智能控制等基礎理論方面合作發表SCI論文150餘篇,獲得授權發明專利9項,出版中英文著作6部,譯著2部。目錄
譯者序