強化學習入門-基於Python 吳喜之張敏 9787300313818 【台灣高等教育出版社】

圖書均為代購,正常情形下,訂後約兩周可抵台。
物品所在地:中國大陸
原出版社:中國人民大學
大陸簡體正版圖書,訂購後正常情形下約兩周可抵台。
NT$312
商品編號: 9787300313818
供貨狀況: 尚有庫存

此商品參與的優惠活動

加入最愛
商品介紹
*完成訂單後正常情形下約兩周可抵台
*本賣場提供之資訊僅供參考,以到貨標的為正確資訊。
印行年月:202303*若逾兩年請先於客服中心或Line洽詢存貨情況,謝謝。
台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。
書名:強化學習入門-基於Python
ISBN:9787300313818
出版社:中國人民大學
著編譯者:吳喜之張敏
叢書名:基於Python的數據分析叢書
頁數:186
所在地:中國大陸 *此為代購商品
書號:1514189
可大量預訂,請先連絡。

內容簡介

強化學習是三種基本機器學習範式之一,與監督學習和無監督學習並駕齊驅。強化學習是一種自我進化的機器學習類型,它使我們更接近於實現真正的人工智能(AI)。強化學習是機器學習的一個分支,其中學習是通過與環境交互來進行的。強化學習是面向目標的學習,不教學習者採取什麼行動,相反,學習者從其行為的結果中學習。從早年的AlphaGo到最近的ChatGPT等人工智能產品表明,強化學習已成為人工智能研究中最活躍的領域之一。 沒有實例做背景的概念是沒有生命力的,沒有實踐支撐的演算法是學不會的。本書試圖通過各種類型的實例來介紹強化學習的各個方面,盡量避免因分類理念而造成的麻煩。使用本書時最好先看本書1 1節和1 2節的一些例子,明白這些例子要做些什麼,不必完全明白其中使用的代碼。然後瀏覽1 7節的例子,這些例子中的問題是後面要解決的,因此需要先有些印象。在此之後,大致看看1 3~1 6節的知識性內容,即使不能夠馬上理解這些內容,也沒有關係,但要盡量掌握第2章關於馬爾可夫決策過程的理論知識,如果覺得理解起來困難,可以結合第3章中的各種更加具體的強化學習方法及具體例子的編程,還可以回顧第2章及第1章的有關內容。這種在實踐和理論(方法)之間反覆相互促進的方式是學好強化學習的關鍵。最後3章包含了關於Python、PyTorch的內容及一些數學知識。這些內容讀者可根據需要來學習或參考。 本書是一本面向希望從頭開始學習強化學習的數據科學類專業(包括統計類專業)的師生、實際工作者、機器學習開發人員和深度學習愛好者等廣大讀者的強化學習入門書籍。

作者簡介

張敏,重慶工商大學講師。以第一作者公開發表了CSSCI/CSCD/SCI文章多篇,主持或參与國家及省部級課題多項,以第二作者出版關於數據科學的教材多部。

目錄

第一部分 強化學習基礎與實踐
第1章 引言
1 1 從迷宮問題談起
1 1 1 人類和動物所面對的迷宮問題
1 1 2 迷宮的說明性例子
1 1 3 例1 1:獎勵矩陣
1 1 4 例1 1:訓練以得到關於狀態和行動的獎勵:Q矩陣
1 1 5 例1 1:使用Q矩陣來得到最優行動(路徑)
1 1 6 例1 1:把代碼組合成class
1 2 熱身:井字遊戲*
1 2 1 兩個真人的簡單井字遊戲
1 2 2 人和機器的井字遊戲的強化學習實踐
1 2 3 井字遊戲的強化學習代碼解釋
1 2 4 整個訓練過程
1 2 5 使用訓練后的模型做人機遊戲
1 2 6 1 2 1節代碼
1 2 7 附錄:1 2 3節人和機器的井字遊戲代碼
1 3 強化學習的基本概念
1 4 馬爾可夫決策過程的要素
1 5 作為目標的獎勵
1 6 探索與開發的權衡
1 6 1 探索與開發
1 6 2 強化學習中的優化和其他學科的區別
1 7 本書將會討論和運算的一些例子
1 7 1 例1 3格子路徑問題
1 7 2 例1 4計程車問題
1 7 3 例1 5推車桿問題
1 7 4 例1 6倒立擺問題
1 7 5 例1 7多臂老虎機問題
1 7 6 例1 7和其他例子(例1 3、例1 5及例1 6)的區別
第2章 馬爾可夫決策過程和動態規劃
2 1 馬爾可夫決策過程簡介
2 1 1 馬爾可夫性
2 1 2 策略
2 1 3 作為回報期望的價值函數
2 1 4 通過例 1 3 格子路徑問題理解本節概念
2 2 動態規劃
2 2 1 動態規劃簡介
2 2 2 Bellman方程
2 2 3 最優策略和最優價值函數
2 3 強化學習基本方法概述
2 3 1 代理與環境的互動
2 3 2 策略迭代:策略評估和策略改進
2 3 3 價值迭代
2 3 4 策略迭代與價值迭代比較
2 3 5 非同步動態規劃
2 3 6 廣義策略迭代
2 3 7 策略梯度
2 3 8 off-policy, on-policy和offline RL
2 4 蒙特卡羅抽樣
2 4 1 MC策略評估
2 4 2 MC狀態-行動值的估計
2 4 3 on-policy:Q價值的MC估計
2 4 4 off-policy:MC預測
2 4 5 MC的策略梯度
2 5 和本章概念相關的例子
2 5 1 例1 3格子路徑問題使用Bellman方程做價值迭代
2 5 2 例1 3格子路徑問題的TD函數
第3章 各種機器學習演算法及實例
3 1 暫時差(TD)簡介
3 1 1 TD、DP和MC演算法的比較
3 1 2 TD方法的特點
3 1 3 TD(0)方法的延伸
3 2 TD評估及策略改進
3 2 1 SARSA (on-policy)
3 2 2 Q學習 (off-policy)
3 2 3 加倍Q學習 (off-policy)
3 3 函數逼近及深度學習演算法
3 3 1 基於價值和策略的函數逼近
3 3 2 深度Q學習
3 3 3 TD:演員-批評者(AC)架構
3 3 4 A2C演算法步驟
3 3 5 A3C演算法
3 3 6 DDPG演算法
3 3 7 ES演算法
3 3 8 PPO演算法
3 3 9 SAC演算法
3 4 用第1章的例子理解本章演算法
3 4 1 例1 3格子路徑問題:SARSA
3 4 2 例1 4計程車問題:SARSA
3 4 3 例1 3格子路徑問題:加倍Q學
3 4 4 例1 5推車桿問題:深度Q學習
3 4 5 例1 5推車桿問題:A3C
3 4 6 例1 6倒立擺問題:DDPG
3 4 7 例1 5推車桿問題:ES
3 4 8 例1 5推車桿問題:PPO-Clip
3 4 9 例1 6倒立擺問題:SAC
第二部分:軟體及一些數學知識
第4章 Python基礎
4 1 引言
4 2 安裝
4 2 1 安裝及開始體驗
4 2 2 運行Notebook
4 3 基本模塊的編程
4 4 Numpy模塊
4 5 Pandas模塊
4 6 Matplotlib模塊
4 7 Python 的類——面向對象編程簡介
4 7 1 類的基本結構
4 7 2 計算最小二乘回歸的例子
4 7 3 子類
第5章 PyTorch與深度學習
5 1 作為機器學習一部分的深度學習
5 2 PyTorch 簡介
5 3 神經網絡簡介
5 3 1 神經網絡概述
5 3 2 梯度下降法
5 3 3 深度神經網絡的PyTorch表示
5 4 深度學習的步驟
5 4 1 定義神經網絡
5 4 2 轉換數據成訓練需要的格式
5 4 3 訓練並評估結果
第6章 回顧一些數學知識*
6 1 條件概率和條件期望
6 2 范數和收縮
6 3 線性代數
6 3 1 特徵值和特徵向量
6 3 2 隨機矩陣
6 4 馬爾可夫決策過程
6 4 1 馬爾可夫鏈和馬爾可夫決策過程
6 4 2 策略
6 4 3 關於時間視界的優化
6 5 Bellman方程
6 5 1 有折扣無限視界問題的Bellman問題
6 5 2 無折扣無限視界問題的Bellman問題
6 6 動態規劃
6 6 1 價值迭代
6 6 2 策略迭代

詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於客服中心或Line或本社留言板留言,我們即儘速上架。
規格說明
大陸簡體正版圖書,訂購後正常情形下約兩周可抵台。
運送方式
已加入購物車
已更新購物車
網路異常,請重新整理