強化學習-原理與Python實戰 肖智清 9787111728917 【台灣高等教育出版社】

圖書均為代購,正常情形下,訂後約兩周可抵台。
物品所在地:中國大陸
原出版社:機械工業
NT$820
商品編號:
供貨狀況: 尚有庫存

此商品參與的優惠活動

加入最愛
商品介紹
*完成訂單後正常情形下約兩周可抵台
*本賣場提供之資訊僅供參考,以到貨標的為正確資訊。
印行年月:202307*若逾兩年請先於私訊洽詢存貨情況,謝謝。
台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。
書名:強化學習-原理與Python實戰
ISBN:9787111728917
出版社:機械工業
著編譯者:肖智清
叢書名:智能系統與技術叢書
頁數:490
所在地:中國大陸 *此為代購商品
書號:1555106
可大量預訂,請先連絡。

內容簡介

本書從原理和實戰兩個方面介紹了強化學習。原理方面,深入介紹了主流強化學習理論和演算法,覆蓋資格跡等經典演算法和MuZero等深度強化學習演算法;實戰方面,每章都配套了編程案例,以方便讀者學習。 全書從邏輯上分為三部分。 第1章:從零開始介紹強化學習的背景知識,介紹環境庫Gym的使用。 第2∼15章:基於折扣獎勵離散時間Markov決策過程模型,介紹強化學習的主幹理論和常見演算法。採用數學語言推導強化學習的基礎理論,進而在理論的基礎上講解演算法,併為演算法提供配套代碼實現。基礎理論的講解突出主幹部分,演算法講解全面覆蓋主流的強化學習演算法,包括經典的非深度強化學習演算法和近年流行的強化學習演算法。Python實現和演算法講解一一對應,還給出了深度強化學習演算法的TensorFlow和PyTorch對照實現。 第16章:介紹其他強化學習模型,包括平均獎勵模型、連續時間模型、非齊次模型、半Markov模型、部分可觀測模型等,以便更好地了解強化學習研究的全貌。

作者簡介

肖智清,深度學習一線研發人員,現就職於世界排名第一的投資銀行,清華大學博士。擅長概率統計、隨機過程、時間序列和機器學習。近5年發表SCI/EI論文十余篇,是多個頂級期刊和會議審稿人。在國內外多項程序設計和數據科學競賽獲得冠軍。

目錄

數學符號表
前言
第1章 初識強化學習
1 1 強化學習及其關鍵元素
1 2 強化學習的應用
1 3 智能體/環境介面
1 4 強化學習的分類
1 4 1 按任務分類
1 4 2 按演算法分類
1 5 強化學習演算法的性能指標
1 6 案例:基於Gym庫的智能體/環境介面
1 6 1 安裝Gym庫
1 6 2 使用Gym庫
1 6 3 小車上山
1 7 本章小結
1 8 練習與模擬面試
第2章 Markov決策過程
2 1 Markov決策過程模型
2 1 1 離散時間Markov決策過程
2 1 2 環境與動力
2 1 3 策略
2 1 4 帶折扣的回報
2 2 價值
2 2 1 價值的定義
2 2 2 價值的性質
2 2 3 策略的偏序和改進
2 3 帶折扣的分佈
2 3 1 帶折扣的分佈的定義
2 3 2 帶折扣的分佈的性質
2 3 3 帶折扣的分佈和策略的等價性
2 3 4 帶折扣的分佈下的期望
2 4 最優策略與最優價值
2 4 1 從最優策略到最優價值
2 4 2 最優策略的存在性
2 4 3 最優價值的性質與Bellman最優方程
2 4 4 用線性規劃法求解最優價值
2 4 5 用最優價值求解最優策略
2 5 案例:懸崖尋路
2 5 1 使用環境
2 5 2 求解策略價值

第3章 有模型數值迭代
第4章 回合更新價值迭代
第5章 時序差分價值迭代
第6章 函數近似方法
第7章 回合更新策略梯度方法
第8章 執行者/評論者
第9章 連續動作空間的確定性策略
第10章 最大熵強化學習
第11章 基於策略的無梯度演算法
第12章 值分佈強化學習
第13章 最小化遺憾
第14章 樹搜索
第15章 模仿學習和人類反饋強化學習
第16章 更多智能體/環境介面模型

詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。
規格說明
運送方式
已加入購物車
已更新購物車
網路異常,請重新整理