*完成訂單後正常情形下約兩周可抵台。 *本賣場提供之資訊僅供參考,以到貨標的為正確資訊。 印行年月:202406*若逾兩年請先於私訊洽詢存貨情況,謝謝。 台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。 書名:深度強化學習 ISBN:9787302659792 出版社:清華大學 著編譯者:阿斯克.普拉特 頁數:254 所在地:中國大陸 *此為代購商品 書號:1655465 可大量預訂,請先連絡。 內容簡介 近年來,深度強化學習成為關注的熱點。在自動駕駛、棋牌遊戲、分子重排和機器人等領域,計算機程序能夠通過強化學習,理解以前被視為超級困難的問題,取得了令人矚目的成果。在圍棋比賽中,AlphaGo接連戰勝樊麾、李世石和柯潔等人類冠軍。深度強化學習從生物學和心理學領域的研究中受到啟發。生物學激發了人工神經網路和深度學習的出現,而心理學研究人和動物如何學習,如何通過正負刺激來強化目標行為。了解了強化學習如何指導機器人行走時,我們不禁聯想到兒童如何在玩中學習。動物行為和大腦結構可作為新的科學和工程藍圖。計算機似乎真正具備了人類的某些行為特徵,深度強化學習技術成為實現AI夢想的核心。 教育界也十分重視深度強化學習的研究進展。許多大學開設了深度強化學習課程。本書怡到好處地介紹了深度強化學習領域的技術細節,可作為AI研究生課程的教材。本書講解全面,涵蓋深度Q-learning的基本演算法,乃至多智能體強化學習和元學習等高級主題。作者簡介 阿斯克·普拉特(Aske Plaat)是荷蘭萊頓大學的數據科學教授,兼任萊頓高級計算機科學研究所(LIACS)主任。Aske是萊頓數據科學中心(LCDS)的聯合創始人,發起了跨學科研究項目「社會、人工智慧與生命科學」(SAILS)。Aske的研究領域包括強化學習、可擴展的組合推理演算法、遊戲和自學習系統。目錄 第1章 簡介1 1 什麼是深度強化學習 1 1 1 深度學習 1 1 2 強化學習 1 1 3 深度強化學習 1 1 4 應用 1 1 5 四個相關領域 1 2 三種機器學習範式 1 2 1 監督學習 1 2 2 無監督學習 1 2 3 強化學習 1 3 本書概述 1 3 1 預備知識 1 3 2 本書結構 第2章 表格值為基礎的強化學習 2 1 序貫決策問題 2 1 1 網格世界 2 1 2 迷宮和盒子謎題 2 2 基於表格值的智能體 2 2 1 智能體和環境 2 2 2 馬爾可夫決策過程 2 2 3 MDP目標 2 2 4 MDP問題的解決方法 2 3 經典的Gym環境 2 3 1 Mountain car和Cartpole 2 3 2 路徑規劃與棋盤遊戲 2 4 本章小結 2 5 擴展閱讀 2 6 練習 2 6 1 複習題 2 6 2 練習題 第3章 基於值的深度強化學習 3 1 大規模、高維度問題 3 1 1 Atari街機遊戲 3 1 2 實時戰略遊戲和視頻遊戲 3 2 深度值函數智能體 3 2 1 利用深度學習對大規模問題進行泛化 3 2 2 三個挑戰 3 2 3 穩定的基於值的深度學習 3 2 4 提升探索能力 3 3 Atari 2600環境 3 3 1 網路結構 3 3 2 評估Atari遊戲表現 3 4 本章小結 3 5 擴展閱讀 3 6 習題 3 6 1 複習題 3 6 2 練習題 第4章 基於策略的強化學習 4 1 連續問題 4 1 1 連續策略 4 1 2 隨機策略 4 1 3 環境:Gym和MuJoCo 4 2 基於策略的智能體 4 2 1 基於策略的演算法:REINFORCE 4 2 2 基於策略的方法中的偏差-方差權衡 4 2 3 演員-評論家「自舉」方法 4 2 4 基線減法與優勢函數 4 2 5 信任域優化 4 2 6 熵和探索 4 2 7 確定性策略梯度 4 2 8 實際操作:MuJoCo中的PPO和DDPG示例 4 3 運動與視覺-運動環境 4 3 1 機器人運動 4 3 2 視覺-運動交互 4 3 3 基準測試 4 4 本章小結 4 5 擴展閱讀 4 6 習題 4 6 1 複習題 4 6 2 練習題 第5章 基於模型的強化學習 5 1 高維問題的動態模型 5 2 學習與規劃智能體 5 2 1 學習模型 5 2 2 使用模型進行規劃 5 3 高維度環境 5 3 1 基於模型的實驗概覽 5 3 2 小型導航任務 5 3 3 機器人應用 5 3 4 Atari遊戲應用 5 3 5 實際操作:PlaNet示例 5 4 本章小結 5 5 擴展閱讀 5 6 習題 5 6 1 複習題 5 6 2 練習題 第6章 雙智能體自對弈 6 1 雙智能體的「零和問題」 6 1 1 困難的圍棋遊戲 6 1 2 AlphaGo的成就 6 2 空白板自我對弈智能體 6 2 1 棋步級別的自我對弈 6 2 2 示例級別的自我對弈 6 2 3 錦標賽級別的自我對弈 6 3 自我對弈環境 6 3 1 如何設計世界級圍棋程序 6 3 2 AlphaGo Zero的性能表現 6 3 3 AlphaZero 6 3 4 自我對弈開放框架 6 3 5 在PolyGames中實例化Hex遊戲 6 4 本章小結 6 5 擴展閱讀 6 6 習題 6 6 1 複習題 6 6 2 練習題 第7章 多智能體強化學習 7 1 多智能體問題 7 1 1 競爭行為 7 1 2 合作行為 7 1 3 混合行為 7 1 4 挑戰 7 2 多智能體強化學習智能體 7 2 1 競爭性行為 7 2 2 合作行為 7 2 3 混合行為 7 3 多智能體環境 7 3 1 競爭行為:撲克 7 3 2 合作行為:捉迷藏 7 3 3 混合行為:奪旗比賽和星際爭霸 7 3 4 實際操作:體育館中的捉迷藏示例 7 4 本章小結 7 5 擴展閱讀 7 6 習題 7 6 1 複習題 7 6 2 練習題 第8章 分層強化學習 8 1 問題結構的粒度 8 1 1 優點 8 1 2 缺點 8 2 智能體的分而治之 8 2 1 選項框架 8 2 2 尋找子目標 8 2 3 分層演算法概述 8 3 分層環境 8 3 1 四個房間和機器人任務 8 3 2 蒙特祖瑪的復讎 8 3 3 多智能體環境 8 3 4 實際操作示例:分層演員-評論家 8 4 本章小結 8 5 擴展閱讀 8 6 習題 8 6 1 複習題 8 6 2 練習題 第9章 元學習 9 1 學會與學習相關的問題 9 2 遷移學習與元學習智能體 9 2 1 遷移學習 9 2 2 元學習 9 3 元學習環境 9 3 1 圖像處理 9 3 2 自然語言處理 9 3 3 元數據集 9 3 4 元世界 9 3 5 Alchemy 9 3 6 實際操作:Meta-World示例 9 4 本章小結 9 5 擴展閱讀 9 6 習題 9 6 1 複習題 9 6 2 練習題 第10章 未來發展 10 1 深度強化學習的發展 10 1 1 表格方法 10 1 2 無模型深度學習 10 1 3 多智能體方法 10 1 4 強化學習的演化歷程 10 2 主要挑戰 10 2 詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。 |