阿爾法零對最優模型預測自適應控制的啟示 德梅萃.P.博塞克斯 9787302660361 【台灣高等教育出版社】

圖書均為代購,正常情形下,訂後約兩周可抵台。
物品所在地:中國大陸
原出版社:清華大學
NT$439
商品編號:
供貨狀況: 尚有庫存

此商品參與的優惠活動

加入最愛
商品介紹
*完成訂單後正常情形下約兩周可抵台
*本賣場提供之資訊僅供參考,以到貨標的為正確資訊。
印行年月:202406*若逾兩年請先於私訊洽詢存貨情況,謝謝。
台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。
書名:阿爾法零對最優模型預測自適應控制的啟示
ISBN:9787302660361
出版社:清華大學
著編譯者:德梅萃.P.博塞克斯
頁數:161
所在地:中國大陸 *此為代購商品
書號:1651822
可大量預訂,請先連絡。

內容簡介

德梅萃·P 博塞克斯(Dimitri P Bertsekas)教授是國際運籌優化與控制領域的著名學者,其系列經典教材被清華大學、麻省理工學院等國內外高校廣泛使用。本書構建了近似動態規劃和強化學習的新的理論框架,簡潔但雄心勃勃。這一框架以離線訓練和在線學習這兩類演算法為中心,彼此獨立又通過牛頓法有機融合。當今新一代人工智慧技術發展絢麗多彩,在看似紛繁複雜的數據與演算法表象之下,其實蘊藏著簡潔而美妙的規律。通過本書的學習,讀者將能體會經典優化控制理論在分析和理解當代強化學習演算法性能中的強大威力,更能領悟到以阿爾法零為代表的新一代演算法浪潮為經典理論提供的新的發展機遇。本書適合作為普通高等學校信息科學技術領域研究生、本科生高年級教材,也可供本領域科研人員自學參考。

作者簡介

李岩,北京林業大學教師,主要從事翻譯等研究工作。

目錄

第1章 阿爾法零、離線訓練和在線學習
1 1 離線訓練和策略迭代
1 2 在線學習與值空間近似——截斷滾動
1 3 阿爾法零的經驗
1 4 強化學習的一種新概念框架
1 5 註釋與參考文獻
第2章 確定性和隨機的動態規劃
2 1 無限時段上的最優控制
2 2 值空間近似
2 3 註釋與參考文獻
第3章 強化學習的抽象視角
3 1 貝爾曼運算元
3 2 值空間近似和牛頓法
3 3 穩定域
3 4 策略迭代、滾動和牛頓法
3 5 在線對弈對於離線訓練過程有多敏感?
3 6 何不直接訓練策略網路並在使用時摒棄在線對弈呢?
3 7 多智能體問題和多智能體滾動
3 8 在線簡化策略迭代
3 9 例外情形
3 10 註釋與參考文獻
第4章 線性二次型情形——例證
4 1 最優解
4 2 穩定線性策略的費用函數
4 3 值迭代
4 4 單步和多步前瞻——牛頓步的解釋
4 5 靈敏度問題
4 6 滾動和策略迭代
4 7 截斷滾動——前瞻長度問題
4 8 線性二次型問題中的例外行為
4 9 註釋與參考文獻
第5章 自適應和模型預測控制
5 1 具有未知參數的系統——魯棒和PID控制
5 2 值空間近似、滾動和自適應控制
5 3 值空間近似、滾動和模型預測控制
5 4 末端費用近似——穩定性問題
5 5 註釋與參考文獻
第6章 有限時段確定性問題——離散優化
6 1 確定性離散空間有限時段問題
6 2 一般離散優化問題
6 3 值空間近似
6 4 離散優化的滾動演算法
6 5 採用多步前瞻的滾動——截斷滾動
6 6 約束形式的滾動演算法
6 7 使用部分可觀馬爾可夫決策問題模型滾動的自適應控制
6 8 極小化極大控制的滾動
6 9 小階段費用與長時段——連續時間滾動
6 10 結語
附錄A 不動點問題的牛頓法
A 1 可微不動點問題的牛頓法
A 2 無須貝爾曼運算元可微性的牛頓法
參考文獻

詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。
規格說明
運送方式
已加入購物車
已更新購物車
網路異常,請重新整理