*完成訂單後正常情形下約兩周可抵台。 *本賣場提供之資訊僅供參考,以到貨標的為正確資訊。 印行年月:202408*若逾兩年請先於私訊洽詢存貨情況,謝謝。 台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。 書名:深度學習入門.4,強化學習 ISBN:9787115649171 出版社:人民郵電 著編譯者:齋藤康毅 叢書名:圖靈程序設計叢書 頁數:313 所在地:中國大陸 *此為代購商品 書號:1670881 可大量預訂,請先連絡。 編輯推薦 深度學習經典教程系列第4部,搭配豐富的圖、表、代碼示例,詳細講解強化學習,基於Python實現,提供實際代碼,邊實踐邊學習。內容簡介 本書前半部分介紹強化學習的重要思想和基礎知識,後半部分介紹如何將深度學習應用於強化學習,遴選講解了深度強化學習的最新技術。全書從最適合入門的多臂老虎機問題切入,依次介紹了定義一般強化學習問題的馬爾可夫決策過程、用於尋找最佳答案的貝爾曼方程,以及解決貝爾曼方程的動態規劃法、蒙特卡洛方法和TD方法。隨後,神經網路和Q學習、DQN、策略梯度法等幾章則分別討論了深度學習在強化學習領域的應用。本書延續「魚書」系列的風格,搭配豐富的圖、表、代碼示例,加上輕鬆、簡明的講解,讓人循序漸進地理解強化學習中各種方法之間的關係,于不知不覺中登堂入室。作者簡介 齋藤康毅,1984年出生於日本長崎縣,東京工業大學畢業,並完成東京大學研究生院課程。現從事計算機視覺與機器學習相關的研究和開發工作。是Introducing Python、Python in Practice、The Elements of Computing Systems、Building Machine Learning Systems with Python的日文版譯者。目錄 前言第1章 老虎機問題 1 1 機器學習的分類與強化學習 1 1 1 監督學習 1 1 2 無監督學習 1 1 3 強化學習 1 2 老虎機問題 1 2 1 什麼是老虎機問題 1 2 2 什麼是好的老虎機 1 2 3 使用數學式表示 1 3 老虎機演算法 1 3 1 價值的估計方法 1 3 2 求平均值的實現 1 3 3 玩家的策略 1 4 老虎機演算法的實現 1 4 1 老虎機的實現 1 4 2 智能代理的實現 1 4 3 嘗試運行 1 4 4 演算法平均的特性 1 5 非穩態問題 1 5 1 解決非穩態問題前的準備工作 1 5 2 解決非穩態問題 1 6 小結 第2章 馬爾可夫決策過程 2 1 什麼是MDP 2 1 1 MDP的具體例子 2 1 2 智能代理與環境的互動 2 2 環境和智能代理的數學表示 2 2 1 狀態遷移 2 2 2 獎勵函數 2 2 3 智能代理的策略 2 3 MDP的目標 2 3 1 回合制任務和連續性任務 2 3 2 收益 2 3 3 狀態價值函數 2 3 4 最優策略和最優價值函數 2 4 MDP的例子 2 4 1 回溯線形圖 2 4 2 找出最優策略 2 5 小結 第3章 貝爾曼方程 3 1 貝爾曼方程的推導 3 1 1 概率和期望值(推導貝爾曼方程的準備) 3 1 2 貝爾曼方程的推導 3 2 貝爾曼方程的例子 3 2 1 有兩個方格的網格世界 3 2 2 貝爾曼方程的意義 3 3 行動價值函數與貝爾曼方程 3 3 1 行動價值函數 3 3 2 使用行動價值函數的貝爾曼方程 3 4 貝爾曼最優方程 3 4 1 狀態價值函數的貝爾曼最優方程 3 4 2 Q函數的貝爾曼最優方程 3 5 貝爾曼最優方程的示例 3 5 1 應用貝爾曼最優方程 3 5 2 得到最優策略 3 6 小結 第4章 動態規劃法 4 1 動態規劃法和策略評估 4 1 1 動態規劃法簡介 4 1 2 嘗試迭代策略評估 4 1 3 迭代策略評估的其他實現方式 4 2 解決更大的問題 4 2 1 GridWorld類的實現 4 2 2 defaultdict的用法 4 2 3 迭代策略評估的實現 4 3 策略迭代法 4 3 1 策略的改進 4 3 2 重複評估和改進 4 4 實施策略迭代法 4 4 1 改進策略 4 4 2 重複評估和改進 4 5 價值迭代法 4 5 1 價值迭代法的推導 4 5 2 價值迭代法的實現 4 6 小結 第5章 蒙特卡洛方法 5 1 蒙特卡洛方法的基礎知識 5 1 1 骰子的點數和 5 1 2 分佈模型和樣本模型 5 1 3 蒙特卡洛方法的實現 5 2 使用蒙特卡洛方法評估策略 5 2 1 使用蒙特卡洛方法計算價值函數 5 2 2 求所有狀態的價值函數 5 2 3 蒙特卡洛方法的高效實現 5 3 蒙特卡洛方法的實現 5 3 1 step方法 5 3 2 智能代理類的實現 5 3 3 運行蒙特卡洛方法 5 4 使用蒙特卡洛方法的策略控制 5 4 1 評估和改進 5 4 2 使用蒙特卡洛方法實現策略控制 5 4 3 ε-greedy演算法(第1個修改) 5 4 4 修改為固定值α的方式(第2個修改) 5 4 5 [修改版]使用蒙特卡洛方法實現策略迭代法 5 5 異策略型和重要性採樣 5 5 1 同策略型和異策略型 5 5 2 重要性採樣 5 5 3 如何減小方差 5 6 小結 第6章 TD方法 6 1 使用TD方法評估策略 6 1 1 TD方法的推導 6 1 2 MC方法和TD方法的比較 6 1 3 TD方法的實現 6 2 SARSA 6 2 1 同策略型的SARSA 6 2 2 SARSA的實現 6 3 異策略型的SARSA 6 3 1 異策略型和重要性採樣 6 3 2 異策略型的SARSA的實現 6 4 Q學習 6 4 1 貝爾曼方程與SARSA 6 4 2 貝爾曼最優方程與Q學習 6 4 3 Q學習的實現 6 5 分佈模型與樣本模型 6 5 1 分佈模型與樣本模型 6 5 2 樣本模型版的Q學習 6 6 小結 第7章 神經網路和Q學習 7 1 DeZero簡介 7 1 1 使用DeZero 7 1 2 多維數組(張量)和函數 7 1 3 最優化 7 2 線性回歸 7 2 1 玩具數據集 7 2 2 線性回歸的理論知識 7 2 3 線性回歸的實現 7 3 神經網路 7 3 1 非線性數據集 7 3 2 線性變換和激活函數 7 3 3 神經網路的實現 7 3 4 層與模型 7 3 5 優化器(最優化方法) 7 4 Q學習與神經網路 7 4 1 神經網路的預處理 7 4 2 表示Q函數的神經網路 7 4 3 神經網路和Q學習 7 5 小結 第8章 DQN 8 1 OpenAIGym 8 1 1 OpenAIGym的基礎知識 8 1 2 隨機智能代理 8 2 DQN的核心技術 8 2 1 經驗回放 8 2 2 經驗回放的實現 8 2 3 目標網路 8 2 4 目標網路的實現 8 2 5 運行DQN 8 3 DQN與Atari 8 3 1 Atari的遊戲環境 8 3 2 預處理 8 3 3 CNN 8 3 4 其他 詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。 |