| *完成訂單後正常情形下約兩周可抵台。 *本賣場提供之資訊僅供參考,以到貨標的為正確資訊。 印行年月:202307*若逾兩年請先於私訊洽詢存貨情況,謝謝。 台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。 書名:強化學習-原理與Python實戰 ISBN:9787111728917 出版社:機械工業 著編譯者:肖智清 叢書名:智能系統與技術叢書 頁數:490 所在地:中國大陸 *此為代購商品 書號:1555106 可大量預訂,請先連絡。 內容簡介 本書從原理和實戰兩個方面介紹了強化學習。原理方面,深入介紹了主流強化學習理論和演算法,覆蓋資格跡等經典演算法和MuZero等深度強化學習演算法;實戰方面,每章都配套了編程案例,以方便讀者學習。 全書從邏輯上分為三部分。 第1章:從零開始介紹強化學習的背景知識,介紹環境庫Gym的使用。 第2∼15章:基於折扣獎勵離散時間Markov決策過程模型,介紹強化學習的主幹理論和常見演算法。採用數學語言推導強化學習的基礎理論,進而在理論的基礎上講解演算法,併為演算法提供配套代碼實現。基礎理論的講解突出主幹部分,演算法講解全面覆蓋主流的強化學習演算法,包括經典的非深度強化學習演算法和近年流行的強化學習演算法。Python實現和演算法講解一一對應,還給出了深度強化學習演算法的TensorFlow和PyTorch對照實現。 第16章:介紹其他強化學習模型,包括平均獎勵模型、連續時間模型、非齊次模型、半Markov模型、部分可觀測模型等,以便更好地了解強化學習研究的全貌。作者簡介 肖智清,深度學習一線研發人員,現就職於世界排名第一的投資銀行,清華大學博士。擅長概率統計、隨機過程、時間序列和機器學習。近5年發表SCI/EI論文十余篇,是多個頂級期刊和會議審稿人。在國內外多項程序設計和數據科學競賽獲得冠軍。目錄 數學符號表前言 第1章 初識強化學習 1 1 強化學習及其關鍵元素 1 2 強化學習的應用 1 3 智能體/環境介面 1 4 強化學習的分類 1 4 1 按任務分類 1 4 2 按演算法分類 1 5 強化學習演算法的性能指標 1 6 案例:基於Gym庫的智能體/環境介面 1 6 1 安裝Gym庫 1 6 2 使用Gym庫 1 6 3 小車上山 1 7 本章小結 1 8 練習與模擬面試 第2章 Markov決策過程 2 1 Markov決策過程模型 2 1 1 離散時間Markov決策過程 2 1 2 環境與動力 2 1 3 策略 2 1 4 帶折扣的回報 2 2 價值 2 2 1 價值的定義 2 2 2 價值的性質 2 2 3 策略的偏序和改進 2 3 帶折扣的分佈 2 3 1 帶折扣的分佈的定義 2 3 2 帶折扣的分佈的性質 2 3 3 帶折扣的分佈和策略的等價性 2 3 4 帶折扣的分佈下的期望 2 4 最優策略與最優價值 2 4 1 從最優策略到最優價值 2 4 2 最優策略的存在性 2 4 3 最優價值的性質與Bellman最優方程 2 4 4 用線性規劃法求解最優價值 2 4 5 用最優價值求解最優策略 2 5 案例:懸崖尋路 2 5 1 使用環境 2 5 2 求解策略價值 第3章 有模型數值迭代 第4章 回合更新價值迭代 第5章 時序差分價值迭代 第6章 函數近似方法 第7章 回合更新策略梯度方法 第8章 執行者/評論者 第9章 連續動作空間的確定性策略 第10章 最大熵強化學習 第11章 基於策略的無梯度演算法 第12章 值分佈強化學習 第13章 最小化遺憾 第14章 樹搜索 第15章 模仿學習和人類反饋強化學習 第16章 更多智能體/環境介面模型 詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。 |