控制系統與強化學習 肖恩.梅恩 9787111775768 【台灣高等教育出版社】

圖書均為代購,正常情形下,訂後約兩周可抵台。
物品所在地:中國大陸
原出版社:機械工業
大陸簡體正版圖書,訂購後正常情形下約兩周可抵台。
NT$948
商品編號: 9787111775768
供貨狀況: 尚有庫存

此商品參與的優惠活動

加入最愛
商品介紹
*書籍均為代購,我們向大陸付款發訂後即無法取消,為避免造成不必要的損失,
下訂前請慎重考慮!下訂前請慎重考慮!謝謝。

*完成訂單後正常情形下約兩周可抵台
*本賣場提供之資訊僅供參考,以到貨標的為正確資訊。
印行年月:202504*若逾兩年請先於客服中心或Line洽詢存貨情況,謝謝。
台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。
書名:控制系統與強化學習
ISBN:9787111775768
出版社:機械工業
著編譯者:肖恩.梅恩
頁數:420
所在地:中國大陸 *此為代購商品
書號:1732087
可大量預訂,請先連絡。

編輯推薦

本書旨在以一種易於理解的方式解釋強化學習和最優控制背後的科學,讀者只需要具有微積分和矩陣代數背景即可。本書的獨特之處在於通過算法設計來獲得學習算法最快收斂速度,以及對為什麼強化學習有時會失敗的洞見。本書通過使用更直觀的確定性探索代替隨機探索進行學習,從一開始就避免了高級隨機過程理論。一旦讀者理解了這些思想,就不難掌握植根于隨機控制的技術。本書共分為兩部分:第一部分介紹無雜訊情況下的基礎知識;第二部分介紹強化學習與隨機控制。本書適合控制相關專業研究生、高年級本科生,以及對控制工程和強化學習感興趣的工程師閱讀。

內容簡介

本書旨在以具有微積分和矩陣代數背景的學生可以理解的方式,解釋強化學習和優化控制背後的科學。本書的一個獨特重點是算法設計,以獲得學習算法的快收斂速度,以及對強化學習有時失敗的原因的洞察。一開始就避開了高級隨機過程理論,用更直觀的確定性探測來代替學習的隨機探索。一旦理解了這些思想,掌握植根于隨機控制的技術就不難了。這些主題在本書的第二部分有所涉及,從馬爾科夫鏈理論開始,以對強化學習的行為者批評方法的全新審視結束。

作者簡介

王佔山,東北大學教授,博士生導師。入選教育部新世紀優秀人才,是遼寧省優秀專家、遼寧省「興遼英才計劃」特聘教授、遼寧省優秀博士后,獲得遼寧省優秀博士學位論文和全國百篇優秀博士學位論文提名,於2018-2020年獲得中國自動化學會優秀博士指導教師和遼寧省優秀博士指導教師榮譽。作為主要完成人,獲國家科技進步二等獎1項、國家自然科學二等獎1項、省部級自然科學一等獎4項、IEEE TNN最佳論文獎1項。在穩定性、故障診斷和容錯控制、智能控制等基礎理論方面合作發表SCI論文150餘篇,獲得授權發明專利9項,出版中英文著作6部,譯著2部。

目錄

譯者序
前言
第1章 引言
1 1 本書涵蓋的內容
1 2 未深入探討的內容
1 3 參考資料
第一部分 無雜訊情況下的基礎知識
第2章 控制理論概述
2 1 身邊的控制問題
2 2 該怎麼辦
2 3 狀態空間模型
2 3 1 充分統計量與非線性
2 3 2 狀態增廣和學習
2 3 3 線性狀態空間模型
2 3 4 向牛頓和萊布尼茨致敬
2 4 穩定性和性能
2 4 1 總成本
2 4 2 平衡點的穩定性
2 4 3 李雅普諾夫函數
2 4 4 技術證明
2 4 5 連續時間域的幾何
2 4 6 線性狀態空間模型
2 5 展望未來:從控制理論到強化學習
2 5 1 演員-評論家
2 5 2 時間差分
2 5 3 老虎機與探索
2 6 如何忽略雜訊
2 7 示例
2 7 1 華爾街
2 7 2 山地車
2 7 3 磁球
2 7 4 倒立擺
2 7 5 Pendubot和Acrobot
2 7 6 合作賽艇
2 8 習題
2 9 註記
第3章 最優控制
3 1 總成本的價值函數
3 2 貝爾曼方程
3 2 1 值迭代
3 2 2 策略改進
3 2 3 佩龍-弗羅貝尼烏斯定理:簡單介紹
3 3 各種變形
3 3 1 折扣成本
3 3 2 最短路徑問題
3 3 3 有限時域
3 3 4 模型預測控制
3 4 逆動態規劃
3 5 貝爾曼方程是一個線性規劃
3 6 線性二次調節器

第二部分 強化學習與隨機控制
附錄
參考文獻
詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於客服中心或Line或本社留言板留言,我們即儘速上架。
規格說明
大陸簡體正版圖書,訂購後正常情形下約兩周可抵台。
運送方式
已加入購物車
已更新購物車
網路異常,請重新整理