*完成訂單後正常情形下約兩周可抵台。 *本賣場提供之資訊僅供參考,以到貨標的為正確資訊。 印行年月:202408*若逾兩年請先於私訊洽詢存貨情況,謝謝。 台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。 書名:強化學習-人工智能如何知錯能改 ISBN:9787122452825 出版社:化學工業 著編譯者:龔超 王冀 梁霄 貴寧 頁數:234 所在地:中國大陸 *此為代購商品 書號:1658337 可大量預訂,請先連絡。 內容簡介 「人工智慧超入門叢書」致力於面向人工智慧各技術方向零基礎的讀者,內容涉及數據素養,機器學習、視覺感知、情感分析、搜索演算法、強化學習、知識圖譜、專家系統等方向。本叢書體系完整、內容簡潔、語言通俗,綜合介紹了人工智慧相關知識,並輔以程序代碼解決問題,使得零基礎的讀者能夠快速入門。 《強化學習:人工智慧如何知錯能改》是「人工智慧超入門叢書」中的分冊,以科普的形式講解了強化學習的核心知識,內容生動有趣,帶領讀者走進強化學習的世界。本書包含強化學習方向的基礎知識,如動態規劃、時序差分等,讓讀者在開始學習時對強化學習有初步的認識;之後,通過對馬爾可夫決策過程及貝爾曼方程的解讀,逐漸過渡到強化學習的關鍵內容;同時,本書也重點解析了策略迭代與價值迭代兩種核心演算法,也對蒙特卡洛方法、時序差分演算法、深度強化學習及基於策略的強化學習演算法進行了深度剖析。本書內容結構完整、邏輯清晰、層層遞進,並配有相關實例與代碼,讓讀者在閱讀學習過程中能夠加深理解。 本書適合強化學習及人工智慧方向的初學者閱讀學習,也可供高等院校人工智慧及計算機類專業的師生參考。作者簡介 貴寧,本科畢業於清華大學自動化系,目前在清華大學深圳研究生院智能機器人實驗室攻讀碩士學位。研究方向集中於魯棒強化學習及其在機器人領域的應用。在碩士學習期間,專註於強化學習與大模型在機器人技術上的實際應用,積累了豐富的經驗。目錄 第1章 強化學概述1 1 什麼是強化學 1 1 1 初識強化學 1 1 2 強化學的關鍵要素 1 1 3 監督、無監督與強化學 1 2 三條主線 1 2 1 試錯 1 2 2 動態規劃 1 2 3 時序差分 1 3 強化學的方法與應用 1 3 1 強強聯合之深度強化學 1 3 2 強化學的跨界賦能 1 3 3 強化學的分類 第2章 馬爾可夫與貝爾曼方程 2 1 「隨機」那些事兒 2 1 1 概率的基本概念 2 1 2 網格迷宮的探索 2 1 3 探索的策略與獎勵 2 1 4 探索的足跡 2 2 馬爾可夫大家族 2 2 1 馬爾可夫過程 2 2 2 馬爾可夫獎勵過程 2 2 3 馬爾可夫決策過程 2 3 貝爾曼方程 2 3 1 值函數與動作值函數 2 3 2 貝爾曼方程 2 3 3 貝爾曼方程 第3章 動態規劃 3 1 動態規劃基礎與環境 3 1 1 動態規劃基礎 3 1 2 環境:冰湖 3 2 策略迭代演算法 3 2 1 原理 3 2 2 代碼 3 3 值迭代演算法 3 3 1 原理 3 3 2 代碼 第4章 蒙卡洛 4 1 隨機變數的數字征 4 1 1 期望 4 1 2 方差 4 2 蒙卡洛方法與應用 4 2 1 圓面積的估計 4 2 2 均值估計 4 3 蒙卡洛與強化學 4 3 1 原理 4 3 2 環境:21點 4 3 3 代碼 第5章 時序差分 5 1 時序差分 5 1 1 時序差分基礎 5 1 2 環境:懸崖漫步 5 2 Sarsa演算法 5 2 1 原理 5 2 2 代碼 5 3 Q-Learning演算法 5 3 1 原理 5 3 2 代碼 第6章 深度強化學 6 1 DQN入門 6 1 1 DQN的基本概念 6 1 2 環境:車桿 6 2 BP經網路+強化學 6 2 1 原理 6 2 2 代碼 6 3 卷積經網路+強化學 6 3 1 原理 6 3 2 代碼 6 4 DQN的改進 第7章 策略學 7 1 策略梯度演算法 7 1 1 策略梯度原理 7 1 2 REINFORCE演算法 7 1 3 代碼 7 2 Actor-Critic演算法 7 2 1 原理 7 2 2 環境:LunarLander 7 2 3 代碼 7 3 其他基於策略的演算法 附錄 附錄A 環境設置與行為探索 A 1 Gym庫與環境設置 A 2 具有人類偏好的多智能體強化學 附錄B 博弈與策略 B 1 什麼是博弈 B 2 混合策略博弈 B 3 序貫博弈 B 4 無限博弈與有限博弈 附錄C 收益衡量 C 1 理性收益:期望值 C 2 效用收益:期望效用 C 3 情感收益:前景理論 詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。 |