強化學習-人工智能如何知錯能改龔超王冀梁霄貴寧 9787122452825 【台灣高等教育出版社】

Name: 強化學習-人工智能如何知錯能改 龔超 王冀 梁霄 貴寧 9787122452825 【台灣高等教育出版社】
Brand: abooksthep
Price: 444.0 TWD
Availability: InStock

圖書均為代購，正常情形下，訂後約兩周可抵台。
物品所在地：中國大陸
原出版社：化學工業

NT$444

商品編號:

供貨狀況: 尚有庫存

加入最愛

商品介紹

*完成訂單後正常情形下約兩周可抵台。
*本賣場提供之資訊僅供參考，以到貨標的為正確資訊。
印行年月：202408*若逾兩年請先於私訊洽詢存貨情況，謝謝。
台灣(台北市)在地出版社，每筆交易均開具統一發票，祝您中獎最高1000萬元。
書名：強化學習-人工智能如何知錯能改
ISBN：9787122452825
出版社：化學工業
著編譯者：龔超王冀梁霄貴寧
頁數：234
所在地：中國大陸 *此為代購商品
書號：1658337
可大量預訂，請先連絡。

內容簡介

「人工智慧超入門叢書」致力於面向人工智慧各技術方向零基礎的讀者，內容涉及數據素養，機器學習、視覺感知、情感分析、搜索演算法、強化學習、知識圖譜、專家系統等方向。本叢書體系完整、內容簡潔、語言通俗，綜合介紹了人工智慧相關知識，並輔以程序代碼解決問題，使得零基礎的讀者能夠快速入門。《強化學習：人工智慧如何知錯能改》是「人工智慧超入門叢書」中的分冊，以科普的形式講解了強化學習的核心知識，內容生動有趣，帶領讀者走進強化學習的世界。本書包含強化學習方向的基礎知識，如動態規劃、時序差分等，讓讀者在開始學習時對強化學習有初步的認識；之後，通過對馬爾可夫決策過程及貝爾曼方程的解讀，逐漸過渡到強化學習的關鍵內容；同時，本書也重點解析了策略迭代與價值迭代兩種核心演算法，也對蒙特卡洛方法、時序差分演算法、深度強化學習及基於策略的強化學習演算法進行了深度剖析。本書內容結構完整、邏輯清晰、層層遞進，並配有相關實例與代碼，讓讀者在閱讀學習過程中能夠加深理解。本書適合強化學習及人工智慧方向的初學者閱讀學習，也可供高等院校人工智慧及計算機類專業的師生參考。

作者簡介

貴寧，本科畢業於清華大學自動化系，目前在清華大學深圳研究生院智能機器人實驗室攻讀碩士學位。研究方向集中於魯棒強化學習及其在機器人領域的應用。在碩士學習期間，專註於強化學習與大模型在機器人技術上的實際應用，積累了豐富的經驗。

第1章強化學概述
1 1 什麼是強化學
1 1 1 初識強化學
1 1 2 強化學的關鍵要素
1 1 3 監督、無監督與強化學
1 2 三條主線
1 2 1 試錯
1 2 2 動態規劃
1 2 3 時序差分
1 3 強化學的方法與應用
1 3 1 強強聯合之深度強化學
1 3 2 強化學的跨界賦能
1 3 3 強化學的分類
第2章馬爾可夫與貝爾曼方程
2 1 「隨機」那些事兒
2 1 1 概率的基本概念
2 1 2 網格迷宮的探索
2 1 3 探索的策略與獎勵
2 1 4 探索的足跡
2 2 馬爾可夫大家族
2 2 1 馬爾可夫過程
2 2 2 馬爾可夫獎勵過程
2 2 3 馬爾可夫決策過程
2 3 貝爾曼方程
2 3 1 值函數與動作值函數
2 3 2 貝爾曼方程
2 3 3 貝爾曼方程
第3章動態規劃
3 1 動態規劃基礎與環境
3 1 1 動態規劃基礎
3 1 2 環境：冰湖
3 2 策略迭代演算法
3 2 1 原理
3 2 2 代碼
3 3 值迭代演算法
3 3 1 原理
3 3 2 代碼
第4章蒙卡洛
4 1 隨機變數的數字征
4 1 1 期望
4 1 2 方差
4 2 蒙卡洛方法與應用
4 2 1 圓面積的估計
4 2 2 均值估計
4 3 蒙卡洛與強化學
4 3 1 原理
4 3 2 環境：21點
4 3 3 代碼
第5章時序差分
5 1 時序差分
5 1 1 時序差分基礎
5 1 2 環境：懸崖漫步
5 2 Sarsa演算法
5 2 1 原理
5 2 2 代碼
5 3 Q-Learning演算法
5 3 1 原理
5 3 2 代碼
第6章深度強化學
6 1 DQN入門
6 1 1 DQN的基本概念
6 1 2 環境：車桿
6 2 BP經網路+強化學
6 2 1 原理
6 2 2 代碼
6 3 卷積經網路+強化學
6 3 1 原理
6 3 2 代碼
6 4 DQN的改進
第7章策略學
7 1 策略梯度演算法
7 1 1 策略梯度原理
7 1 2 REINFORCE演算法
7 1 3 代碼
7 2 Actor-Critic演算法
7 2 1 原理
7 2 2 環境：LunarLander
7 2 3 代碼
7 3 其他基於策略的演算法
附錄
附錄A 環境設置與行為探索
A 1 Gym庫與環境設置
A 2 具有人類偏好的多智能體強化學
附錄B 博弈與策略
B 1 什麼是博弈
B 2 混合策略博弈
B 3 序貫博弈
B 4 無限博弈與有限博弈
附錄C 收益衡量
C 1 理性收益：期望值
C 2 效用收益：期望效用
C 3 情感收益：前景理論

詳細資料或其他書籍請至台灣高等教育出版社查詢，查後請於PChome商店街私訊告知ISBN或書號，我們即儘速上架。