深度強化學習 阿斯克.普拉特 9787302659792 【台灣高等教育出版社】

圖書均為代購,正常情形下,訂後約兩周可抵台。
物品所在地:中國大陸
原出版社:清華大學
NT$508
商品編號:
供貨狀況: 尚有庫存

此商品參與的優惠活動

加入最愛
商品介紹
*完成訂單後正常情形下約兩周可抵台
*本賣場提供之資訊僅供參考,以到貨標的為正確資訊。
印行年月:202406*若逾兩年請先於私訊洽詢存貨情況,謝謝。
台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。
書名:深度強化學習
ISBN:9787302659792
出版社:清華大學
著編譯者:阿斯克.普拉特
頁數:254
所在地:中國大陸 *此為代購商品
書號:1655465
可大量預訂,請先連絡。

內容簡介

近年來,深度強化學習成為關注的熱點。在自動駕駛、棋牌遊戲、分子重排和機器人等領域,計算機程序能夠通過強化學習,理解以前被視為超級困難的問題,取得了令人矚目的成果。在圍棋比賽中,AlphaGo接連戰勝樊麾、李世石和柯潔等人類冠軍。深度強化學習從生物學和心理學領域的研究中受到啟發。生物學激發了人工神經網路和深度學習的出現,而心理學研究人和動物如何學習,如何通過正負刺激來強化目標行為。了解了強化學習如何指導機器人行走時,我們不禁聯想到兒童如何在玩中學習。動物行為和大腦結構可作為新的科學和工程藍圖。計算機似乎真正具備了人類的某些行為特徵,深度強化學習技術成為實現AI夢想的核心。 教育界也十分重視深度強化學習的研究進展。許多大學開設了深度強化學習課程。本書怡到好處地介紹了深度強化學習領域的技術細節,可作為AI研究生課程的教材。本書講解全面,涵蓋深度Q-learning的基本演算法,乃至多智能體強化學習和元學習等高級主題。

作者簡介

阿斯克·普拉特(Aske Plaat)是荷蘭萊頓大學的數據科學教授,兼任萊頓高級計算機科學研究所(LIACS)主任。Aske是萊頓數據科學中心(LCDS)的聯合創始人,發起了跨學科研究項目「社會、人工智慧與生命科學」(SAILS)。Aske的研究領域包括強化學習、可擴展的組合推理演算法、遊戲和自學習系統。

目錄

第1章 簡介
1 1 什麼是深度強化學習
1 1 1 深度學習
1 1 2 強化學習
1 1 3 深度強化學習
1 1 4 應用
1 1 5 四個相關領域
1 2 三種機器學習範式
1 2 1 監督學習
1 2 2 無監督學習
1 2 3 強化學習
1 3 本書概述
1 3 1 預備知識
1 3 2 本書結構
第2章 表格值為基礎的強化學習
2 1 序貫決策問題
2 1 1 網格世界
2 1 2 迷宮和盒子謎題
2 2 基於表格值的智能體
2 2 1 智能體和環境
2 2 2 馬爾可夫決策過程
2 2 3 MDP目標
2 2 4 MDP問題的解決方法
2 3 經典的Gym環境
2 3 1 Mountain car和Cartpole
2 3 2 路徑規劃與棋盤遊戲
2 4 本章小結
2 5 擴展閱讀
2 6 練習
2 6 1 複習題
2 6 2 練習題
第3章 基於值的深度強化學習
3 1 大規模、高維度問題
3 1 1 Atari街機遊戲
3 1 2 實時戰略遊戲和視頻遊戲
3 2 深度值函數智能體
3 2 1 利用深度學習對大規模問題進行泛化
3 2 2 三個挑戰
3 2 3 穩定的基於值的深度學習
3 2 4 提升探索能力
3 3 Atari 2600環境
3 3 1 網路結構
3 3 2 評估Atari遊戲表現
3 4 本章小結
3 5 擴展閱讀
3 6 習題
3 6 1 複習題
3 6 2 練習題
第4章 基於策略的強化學習
4 1 連續問題
4 1 1 連續策略
4 1 2 隨機策略
4 1 3 環境:Gym和MuJoCo
4 2 基於策略的智能體
4 2 1 基於策略的演算法:REINFORCE
4 2 2 基於策略的方法中的偏差-方差權衡
4 2 3 演員-評論家「自舉」方法
4 2 4 基線減法與優勢函數
4 2 5 信任域優化
4 2 6 熵和探索
4 2 7 確定性策略梯度
4 2 8 實際操作:MuJoCo中的PPO和DDPG示例
4 3 運動與視覺-運動環境
4 3 1 機器人運動
4 3 2 視覺-運動交互
4 3 3 基準測試
4 4 本章小結
4 5 擴展閱讀
4 6 習題
4 6 1 複習題
4 6 2 練習題
第5章 基於模型的強化學習
5 1 高維問題的動態模型
5 2 學習與規劃智能體
5 2 1 學習模型
5 2 2 使用模型進行規劃
5 3 高維度環境
5 3 1 基於模型的實驗概覽
5 3 2 小型導航任務
5 3 3 機器人應用
5 3 4 Atari遊戲應用
5 3 5 實際操作:PlaNet示例
5 4 本章小結
5 5 擴展閱讀
5 6 習題
5 6 1 複習題
5 6 2 練習題
第6章 雙智能體自對弈
6 1 雙智能體的「零和問題」
6 1 1 困難的圍棋遊戲
6 1 2 AlphaGo的成就
6 2 空白板自我對弈智能體
6 2 1 棋步級別的自我對弈
6 2 2 示例級別的自我對弈
6 2 3 錦標賽級別的自我對弈
6 3 自我對弈環境
6 3 1 如何設計世界級圍棋程序
6 3 2 AlphaGo Zero的性能表現
6 3 3 AlphaZero
6 3 4 自我對弈開放框架
6 3 5 在PolyGames中實例化Hex遊戲
6 4 本章小結
6 5 擴展閱讀
6 6 習題
6 6 1 複習題
6 6 2 練習題
第7章 多智能體強化學習
7 1 多智能體問題
7 1 1 競爭行為
7 1 2 合作行為
7 1 3 混合行為
7 1 4 挑戰
7 2 多智能體強化學習智能體
7 2 1 競爭性行為
7 2 2 合作行為
7 2 3 混合行為
7 3 多智能體環境
7 3 1 競爭行為:撲克
7 3 2 合作行為:捉迷藏
7 3 3 混合行為:奪旗比賽和星際爭霸
7 3 4 實際操作:體育館中的捉迷藏示例
7 4 本章小結
7 5 擴展閱讀
7 6 習題
7 6 1 複習題
7 6 2 練習題
第8章 分層強化學習
8 1 問題結構的粒度
8 1 1 優點
8 1 2 缺點
8 2 智能體的分而治之
8 2 1 選項框架
8 2 2 尋找子目標
8 2 3 分層演算法概述
8 3 分層環境
8 3 1 四個房間和機器人任務
8 3 2 蒙特祖瑪的復讎
8 3 3 多智能體環境
8 3 4 實際操作示例:分層演員-評論家
8 4 本章小結
8 5 擴展閱讀
8 6 習題
8 6 1 複習題
8 6 2 練習題
第9章 元學習
9 1 學會與學習相關的問題
9 2 遷移學習與元學習智能體
9 2 1 遷移學習
9 2 2 元學習
9 3 元學習環境
9 3 1 圖像處理
9 3 2 自然語言處理
9 3 3 元數據集
9 3 4 元世界
9 3 5 Alchemy
9 3 6 實際操作:Meta-World示例
9 4 本章小結
9 5 擴展閱讀
9 6 習題
9 6 1 複習題
9 6 2 練習題
第10章 未來發展
10 1 深度強化學習的發展
10 1 1 表格方法
10 1 2 無模型深度學習
10 1 3 多智能體方法
10 1 4 強化學習的演化歷程
10 2 主要挑戰
10 2
詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。
規格說明
運送方式
已加入購物車
已更新購物車
網路異常,請重新整理