強化學習與最優控制 德梅萃.P.博塞克斯 9787302656449 【台灣高等教育出版社】

圖書均為代購,正常情形下,訂後約兩周可抵台。
物品所在地:中國大陸
原出版社:清華大學
NT$884
商品編號:
供貨狀況: 尚有庫存

此商品參與的優惠活動

加入最愛
商品介紹
*完成訂單後正常情形下約兩周可抵台
*本賣場提供之資訊僅供參考,以到貨標的為正確資訊。
印行年月:202404*若逾兩年請先於私訊洽詢存貨情況,謝謝。
台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。
書名:強化學習與最優控制
ISBN:9787302656449
出版社:清華大學
著編譯者:德梅萃.P.博塞克斯
頁數:xxx
所在地:中國大陸 *此為代購商品
書號:1637418
可大量預訂,請先連絡。

內容簡介 本書的目的是考慮大型且具有挑戰性的多階段決策問題,這些問題原則上可以通過動態規劃和最優控制來解決,但它們的精確解決方案在計算上是難以處理的。本書討論依賴於近似的解決方法,以產生具有足夠性能的次優策略。這些方法統稱為增強學習,也可以叫做近似動態規劃和神經動態規劃等。本書的主題產生於最優控制和人工智慧思想的相互作用。本書的目的之一是探索這兩個領域之間的共同邊界,並架設一座具有任一領域背景的專業人士都可以訪問的橋樑。

目錄 第1章 精確動態規劃
1 1 確定性動態規劃
1 1 1 確定性問題
1 1 2 動態規劃演算法
1 1 3 值空間的近似
1 2 隨機動態規劃
1 3 例子、變形和簡化
1 3 1 確定性最短路徑問題
1 3 2 確定性離散優化問題
1 3 3 含終止狀態的問題
1 3 4 預報
1 3 5 含不可控狀態組分的問題
1 3 6 不完整的狀態信息和置信狀態
1 3 7 線性二次型最優控制
1 3 8 含未知參數的系統——自適應控制
1 4 強化學習與最優控制——一些術語
1 5 註釋和資源
第2章 值空間的近似
2 1 強化學習中的近似方法
2 1 1 值空間近似的一般問題
2 1 2 離線與在線方法
2 1 3 針對前瞻最小化的基於模型的簡化
2 1 4 無模型的離線Q因子近似
2 1 5 基於值空間近似的策略空間近似
2 1 6 值空間的近似何時有效
2 2 多步前瞻
2 2 1 多步前瞻與滾動時域
2 2 2 多步前瞻與確定性問題
2 3 問題近似
2 3 1 強制解耦
2 3 2 隨機問題中的近似——確定性等價控制
2 4 策略前展與策略改進原則
2 4 1 針對確定性離散優化問題的在線策略前展
2 4 2 隨機策略前展與蒙特卡洛樹搜索
2 4 3 基於專家的策略前展
2 5 針對確定性無窮空間問題的在線策略前展——優化類啟髮式方法
2 5 1 模型預測控制
2 5 2 目標管道與約束可控性條件
2 5 3 模型預測控制的變形
2 6 註釋與資源
第3章 參數化近似
3 1 近似架構
3 1 1 基於特徵的線性與非線性參數架構
3 1 2 訓練線性與非線性架構
3 1 3 增量梯度與牛頓法
3 2 神經網路
3 2 1 訓練神經網路
3 2 2 多層與深度神經網路
3 3 連續動態規劃近似
3 4 Q因子參數化近似
3 5 基於分類的策略空間參數化近似
3 6 註釋與資源
第4章 無窮階段動態規劃
4 1 無窮階段問題概論
4 2 隨機最短路徑問題
4 3 折扣問題
4 4 半馬爾可夫折扣問題
4 5 非同步分散式值迭代
4 6 策略迭代
4 6 1 精確策略迭代
4 6 2 樂觀與多步前瞻策略迭代
4 6 3 針對Q因子的策略迭代
4 7 註釋和資源
4 8 附錄:數學分析
4 8 1 隨機最短路徑問題的相關證明
4 8 2 折扣問題的相關證明
4 8 3 精確與樂觀策略迭代的收斂性
第5章 無窮階段強化學習
5 1 值空間近似——性能界
5 1 1 有限前瞻
5 1 2 策略前展
5 1 3 近似策略迭代
5 2 擬合值迭代
5 3 採用參數化近似的基於模擬的策略迭代
5 3 1 自主學習與執行–批評方法
5 3 2 一種基於模型的變體
5 3 3 一種無模型的變體
5 3 4 實施參數化策略迭代的挑戰
5 3 5 近似策略迭代的收斂問題——振蕩
5 4 Q學習
5 5 附加方法——時序差分
5 6 精確與近似線性規劃
5 7 策略空間近似
5 7 1 通過費用優化執行訓練——策略梯度、交叉熵以及隨機搜索方法
5 7 2 基於專家的監督學習
5 7 3 近似策略迭代、策略前展與策略空間近似
5 8 註釋和資源
5 9 附錄:數學分析
5 9 1 多步前瞻的性能界
5 9 2 策略前展的性能界
5 9 3 近似策略迭代的性能界
第6章 聚集
6 1 包含代表狀態的聚集
6 1 1 連續控制空間離散化
6 1 2 連續狀態空間——部分可觀察馬爾可夫決策問題的離散化
6 2 包含代表特徵的聚集
6 2 1 硬聚集與誤差界
6 2 2 採用特徵的聚集
6 3 求解聚集問題的方法
6 3 1 基於模擬的策略迭代
6 3 2 基於模擬的值迭代
6 4 包含神經網路的基於特徵的聚集
6 5 偏心聚集
6 6 註釋和資源
6 7 附錄:數學分析
參考文獻

詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。

規格說明
運送方式
已加入購物車
已更新購物車
網路異常,請重新整理