強化學習-人工智能如何知錯能改 龔超 王冀 梁霄 貴寧 9787122452825 【台灣高等教育出版社】

圖書均為代購,正常情形下,訂後約兩周可抵台。
物品所在地:中國大陸
原出版社:化學工業
NT$444
商品編號:
供貨狀況: 尚有庫存

此商品參與的優惠活動

加入最愛
商品介紹
*完成訂單後正常情形下約兩周可抵台
*本賣場提供之資訊僅供參考,以到貨標的為正確資訊。
印行年月:202408*若逾兩年請先於私訊洽詢存貨情況,謝謝。
台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。
書名:強化學習-人工智能如何知錯能改
ISBN:9787122452825
出版社:化學工業
著編譯者:龔超 王冀 梁霄 貴寧
頁數:234
所在地:中國大陸 *此為代購商品
書號:1658337
可大量預訂,請先連絡。

內容簡介

「人工智慧超入門叢書」致力於面向人工智慧各技術方向零基礎的讀者,內容涉及數據素養,機器學習、視覺感知、情感分析、搜索演算法、強化學習、知識圖譜、專家系統等方向。本叢書體系完整、內容簡潔、語言通俗,綜合介紹了人工智慧相關知識,並輔以程序代碼解決問題,使得零基礎的讀者能夠快速入門。 《強化學習:人工智慧如何知錯能改》是「人工智慧超入門叢書」中的分冊,以科普的形式講解了強化學習的核心知識,內容生動有趣,帶領讀者走進強化學習的世界。本書包含強化學習方向的基礎知識,如動態規劃、時序差分等,讓讀者在開始學習時對強化學習有初步的認識;之後,通過對馬爾可夫決策過程及貝爾曼方程的解讀,逐漸過渡到強化學習的關鍵內容;同時,本書也重點解析了策略迭代與價值迭代兩種核心演算法,也對蒙特卡洛方法、時序差分演算法、深度強化學習及基於策略的強化學習演算法進行了深度剖析。本書內容結構完整、邏輯清晰、層層遞進,並配有相關實例與代碼,讓讀者在閱讀學習過程中能夠加深理解。 本書適合強化學習及人工智慧方向的初學者閱讀學習,也可供高等院校人工智慧及計算機類專業的師生參考。

作者簡介

貴寧,本科畢業於清華大學自動化系,目前在清華大學深圳研究生院智能機器人實驗室攻讀碩士學位。研究方向集中於魯棒強化學習及其在機器人領域的應用。在碩士學習期間,專註於強化學習與大模型在機器人技術上的實際應用,積累了豐富的經驗。

目錄

第1章 強化學概述
1 1 什麼是強化學
1 1 1 初識強化學
1 1 2 強化學的關鍵要素
1 1 3 監督、無監督與強化學
1 2 三條主線
1 2 1 試錯
1 2 2 動態規劃
1 2 3 時序差分
1 3 強化學的方法與應用
1 3 1 強強聯合之深度強化學
1 3 2 強化學的跨界賦能
1 3 3 強化學的分類
第2章 馬爾可夫與貝爾曼方程
2 1 「隨機」那些事兒
2 1 1 概率的基本概念
2 1 2 網格迷宮的探索
2 1 3 探索的策略與獎勵
2 1 4 探索的足跡
2 2 馬爾可夫大家族
2 2 1 馬爾可夫過程
2 2 2 馬爾可夫獎勵過程
2 2 3 馬爾可夫決策過程
2 3 貝爾曼方程
2 3 1 值函數與動作值函數
2 3 2 貝爾曼方程
2 3 3 貝爾曼方程
第3章 動態規劃
3 1 動態規劃基礎與環境
3 1 1 動態規劃基礎
3 1 2 環境:冰湖
3 2 策略迭代演算法
3 2 1 原理
3 2 2 代碼
3 3 值迭代演算法
3 3 1 原理
3 3 2 代碼
第4章 蒙卡洛
4 1 隨機變數的數字征
4 1 1 期望
4 1 2 方差
4 2 蒙卡洛方法與應用
4 2 1 圓面積的估計
4 2 2 均值估計
4 3 蒙卡洛與強化學
4 3 1 原理
4 3 2 環境:21點
4 3 3 代碼
第5章 時序差分
5 1 時序差分
5 1 1 時序差分基礎
5 1 2 環境:懸崖漫步
5 2 Sarsa演算法
5 2 1 原理
5 2 2 代碼
5 3 Q-Learning演算法
5 3 1 原理
5 3 2 代碼
第6章 深度強化學
6 1 DQN入門
6 1 1 DQN的基本概念
6 1 2 環境:車桿
6 2 BP經網路+強化學
6 2 1 原理
6 2 2 代碼
6 3 卷積經網路+強化學
6 3 1 原理
6 3 2 代碼
6 4 DQN的改進
第7章 策略學
7 1 策略梯度演算法
7 1 1 策略梯度原理
7 1 2 REINFORCE演算法
7 1 3 代碼
7 2 Actor-Critic演算法
7 2 1 原理
7 2 2 環境:LunarLander
7 2 3 代碼
7 3 其他基於策略的演算法
附錄
附錄A 環境設置與行為探索
A 1 Gym庫與環境設置
A 2 具有人類偏好的多智能體強化學
附錄B 博弈與策略
B 1 什麼是博弈
B 2 混合策略博弈
B 3 序貫博弈
B 4 無限博弈與有限博弈
附錄C 收益衡量
C 1 理性收益:期望值
C 2 效用收益:期望效用
C 3 情感收益:前景理論

詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。
規格說明
運送方式
已加入購物車
已更新購物車
網路異常,請重新整理