深度強化學習原理與實踐陳? 9787302660705 【台灣高等教育出版社】

Name: 深度強化學習原理與實踐 陳? 9787302660705 【台灣高等教育出版社】
Brand: abooksthep
Price: 375.0 TWD
Availability: InStock

圖書均為代購，正常情形下，訂後約兩周可抵台。
物品所在地：中國大陸
原出版社：清華大學

NT$375

商品編號:

供貨狀況: 尚有庫存

加入最愛

商品介紹

*完成訂單後正常情形下約兩周可抵台。
*本賣場提供之資訊僅供參考，以到貨標的為正確資訊。
印行年月：202405*若逾兩年請先於私訊洽詢存貨情況，謝謝。
台灣(台北市)在地出版社，每筆交易均開具統一發票，祝您中獎最高1000萬元。
書名：深度強化學習原理與實踐
ISBN：9787302660705
出版社：清華大學
著編譯者：陳?
頁數：230
所在地：中國大陸 *此為代購商品
書號：1638108
可大量預訂，請先連絡。

內容簡介

本書從原理的角度，力求講解清楚深度學習、強化學習、深度強化學習中的一些精選方法，並從實踐的角度，通過一系列循序漸進的原創實驗，引領讀者獨立編程實現這些方法，以期為讀者精通深度強化學習並應用深度強化學習方法解決實際問題奠定堅實基礎。本書不僅適合計算機科學與技術、人工智慧、物聯網工程、數據科學與大數據、軟體工程、通信工程、電子信息、機器人工程、自動化、智能製造等相關專業高年級本科生及研究生教學與自學使用，也適合機器學習等領域的從業者、科研人員及愛好者自學與參考使用。

作者簡介

陳?，美國田納西理工大學博士。2003年碩士畢業后在UT斯達康、意法半導體等企業工作多年。2011年博士畢業后在東北大學物聯網工程專業任副教授、碩士研究生導師。曾任東北大學物聯網工程研究所副所長、無錫(濱湖)國家感測信息中心副主任(掛職)，曾在美國北卡羅來納州立大學訪學。主要研究方向包括物聯網無線通信、機器學習、認知無線電等。講授機器學習、物聯網技術、物聯網通信技術、無線感測網路概論、無線感測網路實驗、創業基礎、創新創業活動、High-Performance Embedded System Design等課程。編著《物聯網無線通信原理與實踐》。多次被學生評選為「我最喜愛的老師」，所負責的課程多次被學生評選為「我最喜愛的專業課程」。

第1章引言
1 1 深度強化學習及其簡史
1 2 深度強化學習的應用領域
1 3 深度強化學習方法的實現
1 3 1 NumPy庫和Matplotlib庫
1 3 2 PyTorch框架
1 4 本章實驗解析
1 5 本書各章聯繫
1 6 本章小結
1 7 思考與練習
第2章從神經網路到深度學習
2 1 神經網路回顧
2 1 1 神經網路的推測過程
2 1 2 神經網路的訓練過程
2 1 3 神經網路實踐
2 2 從神經網路到深度神經網路
2 3 深度神經網路
2 3 1 深度神經網路的推測過程
2 3 2 深度神經網路的訓練過程
2 3 3 反向模式自動微分
2 3 4 深度神經網路實踐及分析
2 4 卷積神經網路
2 4 1 卷積層和合併層
2 4 2 卷積神經網路實踐
2 5 循環神經網路
2 6 本章實驗解析
2 7 本章小結
2 8 思考與練習
第3章強化學習基礎
3 1 強化學習概述
3 1 1 多老虎機問題
3 1 2 利用與探索
3 1 3 強化學習的要素
3 2 有限馬爾可夫決策過程
3 2 1 狀態與馬爾可夫性
3 2 2 什麼是有限馬爾可夫決策過程
3 2 3 收益與策略
3 3 求解MDP
3 3 1 貝爾曼方程與貝爾曼最優方程
3 3 2 價值迭代
3 3 3 策略評估
3 3 4 策略迭代
3 3 5 廣義策略迭代
3 4 本章實驗解析
3 5 本章小結
3 6 思考與練習
第4章行動價值方法
4 1 行動價值與最優行動價值
4 1 1 行動價值
4 1 2 最優行動價值
4 2 蒙特卡洛方法
4 3 Q學習
4 4 Dyna-Q
4 5 使用監督學習方法推測最優行動價值的極限值
4 6 使用深度神經網路推測最優行動價值的極限值
4 7 本章實驗解析
4 8 本章小結
4 9 思考與練習
第5章策略梯度方法
5 1 策略梯度基本方法
5 2 蒙特卡洛策略梯度方法
5 2 1 各個行動的蒙特卡洛策略梯度方法
5 2 2 單個行動的蒙特卡洛策略梯度方法
5 2 3 平移的蒙特卡洛策略梯度方法
5 3 行動評價方法
5 4 不完全觀測
5 5 本章實驗解析
5 6 本章小結
5 7 思考與練習
附錄A 實驗參考程序及註釋
參考文獻

詳細資料或其他書籍請至台灣高等教育出版社查詢，查後請於PChome商店街私訊告知ISBN或書號，我們即儘速上架。