*完成訂單後正常情形下約兩周可抵台。 *本賣場提供之資訊僅供參考,以到貨標的為正確資訊。 印行年月:202404*若逾兩年請先於私訊洽詢存貨情況,謝謝。 台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。 書名:強化學習 ISBN:9787121476617 出版社:電子工業 著編譯者:余欣航 頁數:267 所在地:中國大陸 *此為代購商品 書號:1639309 可大量預訂,請先連絡。 內容簡介 本書詳細介紹了強化學習的理論推導、演算法細節。全書共12章,包括強化學習概述、馬爾可夫決策過程。退化的強化學習問題、環境已知的強化學習問題、基於價值的強化學習演算法、基於策略的強化學習演算法、AC型演算法、基於模型的強化學習演算法等相關知識。本書系統性強、概念清晰,內容簡明通俗。除了側重於理論推導,本書還提供了許多便於讀者理解的例子,以及大量被實踐證明有效的演算法技巧,旨在幫助讀者進一步了解強化學習領域的相關知識,提升其現實中的工程能力。 本書可作為高等院校數學、計算機、人工智慧等相關專業的強化學習教材,但需要有機器學習、深度學習等前置課程作為基礎。目錄 第1章 緒論1 1 強化學習是什麼 1 2 強化學習的基本思想 1 2 1 從環境中產生數據 1 2 2 求解優策略 1 3 強化學習為什麼重要 1 4 本書 內容簡介 參考文獻 第2章 馬爾可夫決策過程 2 1 馬爾可夫過程 2 2 馬爾可夫決策過程的定義 2 3 馬爾可夫過程與馬爾可夫決策過程的對比 2 4 馬爾可夫決策過程的分類 2 4 1 馬爾可夫決策過程是否發生退化 2 4 2 環境是否已知 2 4 3 環境的確定性與隨機性 2 4 4 馬爾可夫決策過程的時齊性 2 4 5 狀態與動作的連續性 *2 4 6 時間的連續性 2 4 7 小結 2 5 馬爾可夫決策過程的獎勵函數 思考題 參考文獻 第3章 退化的強化學習問題 3 1 盲盒售貨機問題 3 2 探索-利用困境 3 3 各種不同的探索策略 3 3 1 貪心策略 3 3 2 玻爾茲曼探索策略 3 3 3 上置信界策略 3 4 總結 思考題 參考文獻 第4章 優控制 4 1 基於價值的思想 4 1 1 三連棋遊戲策略 4 1 2 價值的定義 4 1 3 基於價值和基於策略 4 1 4 小結 思考題 4 2 動態規劃 4 2 1 策略迭代法 4 2 2 雅可比迭代法 4 2 3 值迭代法 4 2 4 軟提升 4 2 5 小結 思考題 4 3 LQR控制 4 3 1 基本LQR控制問題 4 3 2 LQR控制器 *4 3 3 環境隨機的LQR控制問題 4 3 4 iLQR控制器 4 3 5 實時規劃 4 3 6 小結 思考題 4 4 總結 參考文獻 第5章 基於價值的強化學習 5 1 Q-Learning 5 1 1 Q表格 5 1 2 產生數據集的方式:探索與利用 5 1 3 探索策略 5 1 4 使用訓練數據的方法:經驗回放 思考題 5 2 Sarsa 5 2 1 基本Sarsa演算法 5 2 2 同策略與異策略 5 2 3 n步Sarsa 5 2 4 -return演算法 *5 2 5 n步Q-Learning 思考題 5 3 DQN及其變體 5 3 1 固定Q目標結構 5 3 2 雙重DQN 5 3 3 優先回放機制 5 3 4 優勢函數 5 3 5 DuelingDQN *5 3 6 Rainbow 思考題 *5 4 NAF *5 4 1 標準化優勢函數 *5 4 2 NAF的訓練 5 5 總結:基於價值的強化學習演算法 參考文獻 第6章 策略函數與策略梯度 6 1 策略函數與期望回報 6 2 無梯度方法 6 2 1 隨機搜索 6 2 2 交叉熵演算法 6 2 3 進化演算法 6 3 策略梯度 6 3 1 策略網路的構造 6 3 2 策略梯度的計算 6 3 3 基本策略梯度演算法 *6 3 4 動作連續的策略梯度 6 4 策略梯度的訓練技巧 6 4 1 基準法 6 4 2 經驗回放 6 4 3 探索策略 6 5 總結 思考題 參考文獻 第7章 AC演算法 7 1 基本AC演算法 7 1 1 AC演算法的出發點 7 1 2 化簡策略梯度公式 7 1 3 AC演算法的基本思想 7 1 4 單步更新與回合更新 思考題 7 2 AC演算法的訓練技巧 7 2 1 廣義優勢函數估計 7 2 2 控制訓練兩個網路的步調 7 2 3 ACER 思考題 7 3 A3C與A2C 7 3 1 并行訓練 7 3 2 A3C 7 3 3 A2C 思考題 參考文獻 第8章 AC型演算法 8 1 自然梯度法 8 1 1 牛頓法 8 1 2 信賴域方法 8 1 3 近似點法 *8 1 4 自然策略梯度 8 2 TRPO與PPO演算法 8 2 1 策略提升 8 2 2 TRPO演算法 8 2 3 PPO演算法 8 2 4 TRPO與PPO演算法的訓練技巧 8 2 5 小結 思考題 8 3 DDPG 8 3 1 動作連續問題的網路結構 8 3 2 從基於價值的角度理解DDPG演算法 8 3 3 DDPG演算法及訓練技巧 8 3 4 確定策略下的策略梯度 8 3 5 從基於策略的角度理解DDPG演算法 思考題 *8 4 SoftAC 8 5 總結:基於策略的演算法 8 5 1 基於價值和基於策略 8 5 2 偏差-方差取捨 8 5 3 策略的空間 8 5 4 訓練數據的產生與使用 8 5 5 小結 參考文獻 第9章 基於模型的基本思想 9 1 MBRL概述 9 2 模型是什麼 9 2 1 各種模型及其基本用法 9 2 2 更多的模型變體 9 2 3 模型的一些特點 *9 2 4 對模型的理解 思考題 9 3 如何使用黑盒模型 9 3 1 用黑盒模型增廣數據 9 3 2 權衡數據成本與準確性 9 3 3 黑盒模型的其他用途 9 3 4 小結 思考題 9 4 如何使用白盒模型 9 4 1 用白盒模型輔助進行策略優化 9 4 2 用白盒模型解優控制 9 4 3 小結 思考題 參考文獻 第10章 基於模型的強化學習進階 10 1 如何學習模型 10 1 1 讓學習更符合目標 10 1 2 讓學習本身成為目標 10 1 3 以學習作為目標 10 1 4 小結 思考題 10 2 世界模型 詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。 |