強化學習 余欣航 9787121476617 【台灣高等教育出版社】

圖書均為代購,正常情形下,訂後約兩周可抵台。
物品所在地:中國大陸
原出版社:電子工業
NT$444
商品編號:
供貨狀況: 尚有庫存

此商品參與的優惠活動

加入最愛
商品介紹
*完成訂單後正常情形下約兩周可抵台
*本賣場提供之資訊僅供參考,以到貨標的為正確資訊。
印行年月:202404*若逾兩年請先於私訊洽詢存貨情況,謝謝。
台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。
書名:強化學習
ISBN:9787121476617
出版社:電子工業
著編譯者:余欣航
頁數:267
所在地:中國大陸 *此為代購商品
書號:1639309
可大量預訂,請先連絡。

內容簡介

本書詳細介紹了強化學習的理論推導、演算法細節。全書共12章,包括強化學習概述、馬爾可夫決策過程。退化的強化學習問題、環境已知的強化學習問題、基於價值的強化學習演算法、基於策略的強化學習演算法、AC型演算法、基於模型的強化學習演算法等相關知識。本書系統性強、概念清晰,內容簡明通俗。除了側重於理論推導,本書還提供了許多便於讀者理解的例子,以及大量被實踐證明有效的演算法技巧,旨在幫助讀者進一步了解強化學習領域的相關知識,提升其現實中的工程能力。 本書可作為高等院校數學、計算機、人工智慧等相關專業的強化學習教材,但需要有機器學習、深度學習等前置課程作為基礎。

目錄

第1章 緒論
1 1 強化學習是什麼
1 2 強化學習的基本思想
1 2 1 從環境中產生數據
1 2 2 求解優策略
1 3 強化學習為什麼重要
1 4 本書

內容簡介


參考文獻
第2章 馬爾可夫決策過程
2 1 馬爾可夫過程
2 2 馬爾可夫決策過程的定義
2 3 馬爾可夫過程與馬爾可夫決策過程的對比
2 4 馬爾可夫決策過程的分類
2 4 1 馬爾可夫決策過程是否發生退化
2 4 2 環境是否已知
2 4 3 環境的確定性與隨機性
2 4 4 馬爾可夫決策過程的時齊性
2 4 5 狀態與動作的連續性
*2 4 6 時間的連續性
2 4 7 小結
2 5 馬爾可夫決策過程的獎勵函數
思考題
參考文獻
第3章 退化的強化學習問題
3 1 盲盒售貨機問題
3 2 探索-利用困境
3 3 各種不同的探索策略
3 3 1 貪心策略
3 3 2 玻爾茲曼探索策略
3 3 3 上置信界策略
3 4 總結
思考題
參考文獻
第4章 優控制
4 1 基於價值的思想
4 1 1 三連棋遊戲策略
4 1 2 價值的定義
4 1 3 基於價值和基於策略
4 1 4 小結
思考題
4 2 動態規劃
4 2 1 策略迭代法
4 2 2 雅可比迭代法
4 2 3 值迭代法
4 2 4 軟提升
4 2 5 小結
思考題
4 3 LQR控制
4 3 1 基本LQR控制問題
4 3 2 LQR控制器
*4 3 3 環境隨機的LQR控制問題
4 3 4 iLQR控制器
4 3 5 實時規劃
4 3 6 小結
思考題
4 4 總結
參考文獻
第5章 基於價值的強化學習
5 1 Q-Learning
5 1 1 Q表格
5 1 2 產生數據集的方式:探索與利用
5 1 3 探索策略
5 1 4 使用訓練數據的方法:經驗回放
思考題
5 2 Sarsa
5 2 1 基本Sarsa演算法
5 2 2 同策略與異策略
5 2 3 n步Sarsa
5 2 4 -return演算法
*5 2 5 n步Q-Learning
思考題
5 3 DQN及其變體
5 3 1 固定Q目標結構
5 3 2 雙重DQN
5 3 3 優先回放機制
5 3 4 優勢函數
5 3 5 DuelingDQN
*5 3 6 Rainbow
思考題
*5 4 NAF
*5 4 1 標準化優勢函數
*5 4 2 NAF的訓練
5 5 總結:基於價值的強化學習演算法
參考文獻
第6章 策略函數與策略梯度
6 1 策略函數與期望回報
6 2 無梯度方法
6 2 1 隨機搜索
6 2 2 交叉熵演算法
6 2 3 進化演算法
6 3 策略梯度
6 3 1 策略網路的構造
6 3 2 策略梯度的計算
6 3 3 基本策略梯度演算法
*6 3 4 動作連續的策略梯度
6 4 策略梯度的訓練技巧
6 4 1 基準法
6 4 2 經驗回放
6 4 3 探索策略
6 5 總結
思考題
參考文獻
第7章 AC演算法
7 1 基本AC演算法
7 1 1 AC演算法的出發點
7 1 2 化簡策略梯度公式
7 1 3 AC演算法的基本思想
7 1 4 單步更新與回合更新
思考題
7 2 AC演算法的訓練技巧
7 2 1 廣義優勢函數估計
7 2 2 控制訓練兩個網路的步調
7 2 3 ACER
思考題
7 3 A3C與A2C
7 3 1 并行訓練
7 3 2 A3C
7 3 3 A2C
思考題
參考文獻
第8章 AC型演算法
8 1 自然梯度法
8 1 1 牛頓法
8 1 2 信賴域方法
8 1 3 近似點法
*8 1 4 自然策略梯度
8 2 TRPO與PPO演算法
8 2 1 策略提升
8 2 2 TRPO演算法
8 2 3 PPO演算法
8 2 4 TRPO與PPO演算法的訓練技巧
8 2 5 小結
思考題
8 3 DDPG
8 3 1 動作連續問題的網路結構
8 3 2 從基於價值的角度理解DDPG演算法
8 3 3 DDPG演算法及訓練技巧
8 3 4 確定策略下的策略梯度
8 3 5 從基於策略的角度理解DDPG演算法
思考題
*8 4 SoftAC
8 5 總結:基於策略的演算法
8 5 1 基於價值和基於策略
8 5 2 偏差-方差取捨
8 5 3 策略的空間
8 5 4 訓練數據的產生與使用
8 5 5 小結
參考文獻
第9章 基於模型的基本思想
9 1 MBRL概述
9 2 模型是什麼
9 2 1 各種模型及其基本用法
9 2 2 更多的模型變體
9 2 3 模型的一些特點
*9 2 4 對模型的理解
思考題
9 3 如何使用黑盒模型
9 3 1 用黑盒模型增廣數據
9 3 2 權衡數據成本與準確性
9 3 3 黑盒模型的其他用途
9 3 4 小結
思考題
9 4 如何使用白盒模型
9 4 1 用白盒模型輔助進行策略優化
9 4 2 用白盒模型解優控制
9 4 3 小結
思考題
參考文獻
第10章 基於模型的強化學習進階
10 1 如何學習模型
10 1 1 讓學習更符合目標
10 1 2 讓學習本身成為目標
10 1 3 以學習作為目標
10 1 4 小結
思考題
10 2 世界模型
詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。
規格說明
運送方式
已加入購物車
已更新購物車
網路異常,請重新整理