| *數量非實際在台庫存 *完成訂單後正常情形下約兩周可抵台。 *本賣場提供之資訊僅供參考,以到貨標的為實際資訊。 印行年月:202401*若逾兩年請先於私訊洽詢存貨情況,謝謝。 台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。 書名:強化學習算法入門 ISBN:9787522617619 出版社:中國水利水電 著編譯者:(日)曾我部東馬 叢書名:智博人工智能技術叢書 頁數:175 所在地:中國大陸 *此為代購商品 書號:1601979 可大量預訂,請先連絡。 內容簡介 自AlphaGo在2016年擊敗職業棋手以來,人工智慧技術中的強化學習和深度強化學習也引起了各個領域的關注。然而,強化學習與機器學習、深度學習相比,其相關的書籍相對來說比較少,而且很多書籍中還使用了大量晦澀的專業術語和數學公式,初學者往往面臨很高的門檻。 本書的目的就是為了消除這種高門檻,並通過使用初級數學中的「平均值」等概念,對強化學習中的「價值」「探索」和「馬爾可夫性」等基本概念進行淺顯易懂的解釋。 對於每個演算法,本書將使用「多臂老虎機問題」或「網格世界問題」中的一個,以易於比較的狀態進行解釋,這樣,可以讓讀者更直觀地理解各演算法的特點和差異。此外,對於核心演算法,本書提供了使用Python和MATLAB編寫的兩種類型的代碼,通過運行這些代碼,可以讓讀者直觀地理解「原理→公式→程序」的一系列流程。作者簡介 〔日〕曾我部東馬 理學博士(物理學專業)。曾任馬克斯·普朗克研究所(德國)博士研究員、劍橋大學(英國)研究員。2009年回到日本,參与創立了Grid公司,擔任董事兼首席技術官。2011年起先後擔任東京大學尖端科學技術研究中心特聘助理教授、特聘副教授。2016年3月起任電氣通信大學副教授,同時兼任Grid公司首席技術顧問、東京大學尖端科學技術研究中心客座研究員至今。 他以開發具有「深度學習—深度強化學習—回歸預測—優化」功能的跨功能機器學習框架。ReNom而聞名,目前在開發以量子機器學習為代表的最先進量子演算法∞ReNomQ的同時,還致力於使用深度強化學習「在線優化問題」的研究。目錄 第1章 基於「平均」的強化學習的基本概念1 0 簡介 1 1 平均值與期望值 1 1 1 平均值 1 1 2 期望值 1 1 3 期望值與平均值的關係 1 2 平均值和價值 總結 1 3 平均值和馬爾可夫性 1 3 1 平均值的計算公式及其變形 1 3 2 逐次平均值表達和MP 1 4 用平均值推導貝爾曼方程 1 4 1 平均值表達和價值函數的引入 1 4 2 決策型貝爾曼方程式的推導 1 4 3 概率型貝爾曼方程式的推導 1 5 蒙特卡羅方法的平均值推導 1 5 1 總獎勵函數G(St)的引入 1 5 2 總獎勵函數G(St)與價值函數V(St)的比較 1 5 3 總獎勵函數G(St)平均值的價值函數v(St) 1 6 用平均值推導TD方法 1 6 1 TD(0) 方法的計算公式的推導 1 6 2 TD(n)方法的計算公式的推導 總結 第2章 強化學習中演算法的特點及應用 2 0 簡介 2 1 強化學習中的策略(alS) 2 1 1 多臂老虎機問題 2 1 2 E-Greedy策略 2 1 3 UCB-1策略 2 1 4 Bayes sampling 策略 2 2 動態規劃法 2 2 1 E-Greedy (ε=1)策略迭代法 2 2 2 E-Greedy (ε=0)策略迭代法(On-Policy) 2 2 3 E -Greedy (ε=0)價值迭代法(Off-Policy) 2 3 蒙特卡羅方法 2 4 TD(0)方法 2 4 1 從策略迭代法推導SARSA方法 2 4 2 TD(0)-SARSA方法 2 4 3 由價值迭代法推導TD(0)-Q方法 2 4 4 完全Off-Policy的TD(0)-Q方法 2 4 5 局部 Off-Policy的TD(0)-Q方法 2 4 6 TD(0)-0方法與TD(0)-SARSA方法的比較 總結 第3章 函數近似方法 3 0 簡介 3 1 函數近似的基本概念 3 2 使用函數近似模型的V(St)表達方式 3 3 機器學習的價值函數回歸 3 3 1 從誤差函數得出的回歸和分類 3 3 2 誤差函數的設計與概率梯度下降法 3 3 3 強化學習中的回歸分析機制 3 4 使用蒙特卡羅方法進行價值函數回歸 3 5 使用TD(0)-SARSA方法進行行動狀態價值函數回歸 3 6 使用TD(0)-Q方法進行行動狀態價值函數回歸 總結 第4章 深度強化學習的原理和方法 4 0 簡介 4 1 TD-Q方法中基於NN的行動價值函數回歸 4 2 基於DQN方法的行動狀態價值函數的近似 4 3 概率策略梯度法 4 3 1 蒙特卡羅離散策略梯度法 4 3 2 基線蒙特卡羅離散策略梯度法 4 3 3 離散型Actor-Critic法 4 3 4 連續型Actor-Critic法 4 4 決策型策略梯度法 4 4 1 DDPG方法 4 4 2 混合DDPG方法 4 5 TRPO/PPO方法有Code 4 5 1 EM演算法 4 5 2 信賴域和自然梯度 4 5 3 信賴域策略梯度法 4 6 AlphaGo Zero學習法有Code 4 6 1 AlphaGo Zero的學習誤差函數 4 6 2 AlphaGo的學習策略π 4 7 總結與展望 總結 參考文獻 詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。 |