Joy RL-強化學習實踐教程 江季 王琦 楊毅遠 9787115631541 【台灣高等教育出版社】

圖書均為代購,正常情形下,訂後約兩周可抵台。
物品所在地:中國大陸
原出版社:人民郵電
大陸簡體正版圖書,訂購後正常情形下約兩周可抵台。
NT$508
商品編號: 9787115631541
供貨狀況: 尚有庫存

此商品參與的優惠活動

加入最愛
商品介紹
*書籍均為代購,我們向大陸付款發訂後即無法取消,為避免造成不必要的損失,
下訂前請慎重考慮!下訂前請慎重考慮!謝謝。

*完成訂單後正常情形下約兩周可抵台
*本賣場提供之資訊僅供參考,以到貨標的為正確資訊。
印行年月:202504*若逾兩年請先於客服中心或Line洽詢存貨情況,謝謝。
台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。
書名:Joy RL-強化學習實踐教程
ISBN:9787115631541
出版社:人民郵電
著編譯者:江季 王琦 楊毅遠
頁數:160
所在地:中國大陸 *此為代購商品
書號:1724113
可大量預訂,請先連絡。

內容簡介

本書是繼《Easy RL:強化學習教程》(俗稱「蘑菇書」)之後,為強化學習的讀者專門打造的一本深入實踐的全新教程。全書大部分內容基於3位作者的實踐經驗,涵蓋馬爾可夫決策過程、動態規劃、免模型預測、免模型控制、深度學習基礎、DQN算法、DQN算法進階、策略梯度、Actor-Critic算法、DDPG與TD3算法、PPO算法等內容,旨在幫助讀者快速入門強化學習的代碼實踐,並輔以一套開源代碼框架「JoyRL」,便於讀者適應業界應用研究風格的代碼。 與「蘑菇書」不同,本書針對強化學習核心理論進行提煉,並串聯知識點,重視強化學習代碼實踐的指導而不是對於理論的詳細講解。本書適合具有一定編程基礎且希望快速進入實踐應用階段的讀者閱讀。

作者簡介

楊毅遠,牛津大學計算機系博士研究生,碩士畢業於清華大學。Datawhale成員,《Easy RL:強化學習教程》作者,主要研究方向為時間序列、數據挖掘、智能感測系統,深度學習,曾獲國家獎學金、北京市優秀畢業生、清華大學優秀碩士學位論文、全國大學生智能汽車競賽總冠軍等榮譽,發表SCI/EI論文多篇。

目錄

第1章 緒論
1 1 為什麼要學習強化學習?
1 2 強化學習的應用
1 3 強化學習方向概述
1 3 1 多智能體強化學習
1 3 2 模仿學習和逆強化學習
1 3 3 探索策略
1 3 4 實時環境
1 3 5 多任務強化學習
1 4 學習本書之前的一些準備
第2章 馬爾可夫決策過程
2 1 馬爾可夫決策過程
2 2 馬爾可夫性質
2 3 回報
2 4 狀態轉移矩陣
2 5 本章小結
2 6 練習題
第3章 動態規劃
3 1 動態規劃的編程思想
3 2 狀態值函數和動作值函數
3 3 貝爾曼方程
3 4 策略迭代算法
3 5 值迭代算法
3 6 本章小結
3 7 練習題
第4章 模型預測
4 1 有模型與模型
4 2 預測與控制
4 3 蒙卡羅方法
4 4 時序差分方法
4 5 時序差分方法和蒙卡羅方法的差異
4 6 n步時序差分方法
4 7 本章小結
4 8 練習題
第5章 模型控制
5 1 Q-learning算法
5 1 1 Q表格
5 1 2 探索策略
5 2 Sarsa算法
5 3 同策略算法與異策略算法
5 4 實戰:Q-learning算法
5 4 1 定義訓練
5 4 2 定義算法
5 4 3 定義環境
5 4 4 設置參數
5 4 5 開始訓練
5 4 6 結果分析
5 4 7 消融實驗
5 5 實戰:Sarsa算法
5 6 本章小結
5 7 練習題
第6章 深度學習基礎
6 1 強化學習與深度學習的關係
6 2 線性回歸模型
6 3 梯度下降
6 4 邏輯回歸模型
6 5 全連接網絡
6 6 高級的經網絡模型
6 7 本章小結
6 8 練習題
第7章 DQN算法
7 1 深度經網絡
7 2 經驗回放
7 3 目標網絡
7 4 實戰:DQN算法
7 4 1 偽代碼
7 4 2 定義模型
7 4 3 經驗回放
7 4 4 定義智能體
7 4 5 定義環境
7 4 6 設置參數
7 5 本章小結
7 6 練習題
第8章 DQN算法進
8 1 DoubleDQN算法
8 2 DuelingDQN算法
8 3 NoisyDQN算法
8 4 PERDQN算法
8 5 實戰:DoubleDQN算法
8 6 實戰:DuelingDQN算法
8 7 實戰:NoisyDQN算法
8 8 實戰:PERDQN算法
8 8 1 偽代碼
8 8 2 SumTree結構
8 8 3 PER
8 9 本章小結
8 10 練習題
第9章 策略梯度
9 1 基於值的算法的缺點
9 2 策略梯度算法
9 3 REINFORCE算法
9 4 策略梯度推導進
9 4 1 平穩分佈
9 4 2 基於平穩分佈的策略梯度推導
9 5 策略函數的設計
9 5 1 離散動作空間的策略函數
9 5 2 連續動作空間的策略函數
9 6 本章小結
9 7 練習題
第10章 Actor-Critic算法
10 1 策略梯度算法的缺點
10 2 QActor-Critic算法
10 3 A2C與A3C算法
10 4 廣義勢估計
10 5 實戰:A2C算法
10 5 1 定義模型
10 5 2 採樣動作
10 5 3 策略更新
10 6 本章小結
10 7 練習題
第11章 DDPG與TD3算法
11 1 DPG算法
11 2 DDPG算法
11 3 DDPG算法的缺點
11 4 TD3算法
11 4 1 雙Q網絡
11 4 2 延遲更新
11 4 3 雜訊正則化
11 5 實戰:DDPG算法
11 5 1 DDPG偽代碼
11 5 2 定義模型
11 5 3 動作採樣
11 6 實戰:TD3算法
11 7 本章小結
11 8 練習題
第12章 PPO算法
12 1 重要性採樣
12 2 PPO算法
12 3 一個常見的誤區
12 4 實戰:PPO算法
12 4 1 PPO算法偽代碼
12 4 2 PPO算法更新
12 5 本章小結
12 6 練習題
練習題答案
詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於客服中心或Line或本社留言板留言,我們即儘速上架。
規格說明
大陸簡體正版圖書,訂購後正常情形下約兩周可抵台。
運送方式
已加入購物車
已更新購物車
網路異常,請重新整理