作者簡介 趙世鈺,西湖大學工學院AI分支特聘研究員,智能無人系統實驗室負責人,國家海外高層次人才引進計劃青年項目獲得者;本碩畢業於北京航空航天大學,博士畢業於新加坡國立大學,曾任英國謝菲爾德大學自動控制與系統工程系Lecturer;致力於研發有趣、有用、有挑戰性的下一代機器人系統,重點關注多機器人系統中的控制、決策與感知等問題。
目錄 第1章 基本概念
1 1 網格世界例子
1 2 狀態和動作
1 3 狀態轉移
1 4 策略
1 5 獎勵
1 6 軌跡、回報、回合
1 7 馬爾可夫決策過程
1 8 總結
1 9 問答
第2章 狀態值與貝爾曼方程
2 1 啟發示例1:為什麼回報很重要?
2 2 啟發示例2:如何計算回報?
2 3 狀態值
2 4 貝爾曼方程
2 5 示例
2 6 矩陣向量形式
2 7 求解狀態值
2 7 1 方法1:解析解
2 7 2 方法2:數值解
2 7 3 示例
2 8 動作值
2 8 1 示例
2 8 2 基於動作值的貝爾曼方程
2 9 總結
2 10 問答
第3章 最優狀態值與貝爾曼最優方程
3 1 啟發示例:如何改進策略?
3 2 最優狀態值和最優策略
3 3 貝爾曼最優方程
3 3 1 方程右側的優化問題
3 3 2 矩陣-向量形式
3 3 3 壓縮映射定理
3 3 4 方程右側函數的壓縮性質
3 4 從貝爾曼最優方程得到最優策略
3 5 影響最優策略的因素
3 6 總結
3 7 問答
第4章 值迭代與策略迭代
4 1 值迭代算法
4 1 1 展開形式和實現細節
4 1 2 示例
4 2 策略迭代算法
4 2 1 算法概述
4 2 2 算法的展開形式
4 2 3 示例
4 3 截斷策略迭代算法
4 3 1 對比值迭代與策略迭代
4 3 2 截斷策略迭代算法
4 4 總結
4 5 問答
第5章 蒙特卡羅方法
5 1 啟發示例:期望值估計
5 2 MC Basic:最簡單的基於蒙特卡羅的算法
5 2 1 將策略迭代算法轉換為無需模型
5 2 2 MC Basic算法
5 2 3 示例
5 3 MC Exploring Starts算法
5 3 1 更高效地利用樣本
5 3 2 更高效地更新策略
5 3 3 算法描述
5 4 MC ε-Greedy算法
5 4 1 ε-Greedy策略
5 4 2 算法描述
5 4 3 示例
5 5 探索與利用:以ε-Greedy策略為例
5 6 總結
5 7 問答
第6章 隨機近似算法
6 1 啟發示例:期望值估計
6 2 羅賓斯-門羅算法
6 2 1 收斂性質
6 2 2 在期望值估計問題中的應用
6 3 Dvoretzky定理
6 3 1 Dvoretzky定理的證明
6 3 2 應用於分析期望值估計算法
6 3 3 應用於證明羅賓斯-門羅定理
6 3 4 Dvoretzky定理的推廣
6 4 隨機梯度下降
6 4 1 應用於期望值估計
6 4 2 隨機梯度下降的收斂模式
6 4 3 隨機梯度下降的另一種描述
6 4 4 小批量梯度下降
6 4 5 隨機梯度下降的收斂性
6 5 總結
6 6 問答
第7章 時序差分方法
7 1 狀態值估計:最基礎的時序差分算法
7 1 1 算法描述
7 1 2 性質分析
7 1 3 收斂性證明
7 2 動作值估計:Sarsa
7 2 1 算法描述
7 2 2 學習最優策略
7 3 動作值估計:n-Step Sarsa
7 4 最優動作值估計:Q-learning
7 4 1 算法描述
7 4 2 Off-policy和On-policy
7 4 3 算法實現
7 4 4 示例
7 5 時序差分算法的統一框架
7 6 總結
7 7 問答
第8章 值函數方法
8 1 價值表示:從表格到函數
8 2 基於值函數的時序差分算法:狀態值估計
8 2 1 目標函數
8 2 2 優化算法
8 2 3 選擇值函數
8 2 4 示例
8 2 5 理論分析
8 3 基於值函數的時序差分:動作值估計
8 3 1 基於值函數的Sarsa
8 3 2 基於值函數的Q-learning
8 4 深度Q-learning
8 4 1 算法描述
8 4 2 示例
8 5 總結
8 6 問答
第9章 策略梯度方法
9 1 策略表示:從表格到函數
9 2 目標函數:定義最優策略
9 3 目標函數的梯度
9 3 1 推導策略梯度:有折扣的情況
9 3 2 推導策略梯度:無折扣的情況
9 4 蒙特卡羅策略梯度(REINFORCE)
9 5 總結
9 6 問答
第10章 演員-評論家方法
10 1 最簡單的演員-評論家算法:QAC
10 2 優勢演員-評論家
10 2 1 基準不變性
10 2 2 算法描述
10 3 異策略演員-評論家
10 3 1 重要性採樣
10 3 2 Off-policy策略梯度定理
10 3 3 算法描述
10 4 確定性演員-評論家
10 4 1 確定性策略梯度定理
10 4 2 算法描述
10 5 總結
10 6 問答
附錄A 概率論基礎
附錄B 測度概率論
附錄C 序列的收斂性
C 1 確定性序列的收斂性
C 2 隨機序列的收斂性
附錄D 梯度下降方法
符號
索引
參考文獻
詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於客服中心或Line或本社留言板留言,我們即儘速上架。