強化學習基礎 原理與應用 張百珂 9787302685913 【台灣高等教育出版社】

圖書均為代購,正常情形下,訂後約兩周可抵台。
物品所在地:中國大陸
原出版社:清華大學
大陸簡體正版圖書,訂購後正常情形下約兩周可抵台。
NT$630
商品編號: 9787302685913
供貨狀況: 尚有庫存

此商品參與的優惠活動

加入最愛
商品介紹
*書籍均為代購,我們向大陸付款發訂後即無法取消,為避免造成不必要的損失,
下訂前請慎重考慮!下訂前請慎重考慮!謝謝。

*完成訂單後正常情形下約兩周可抵台
*本賣場提供之資訊僅供參考,以到貨標的為正確資訊。
印行年月:202505*若逾兩年請先於客服中心或Line洽詢存貨情況,謝謝。
台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。
書名:強化學習基礎 原理與應用
ISBN:9787302685913
出版社:清華大學
著編譯者:張百珂
頁數:394
所在地:中國大陸 *此為代購商品
書號:1732048
可大量預訂,請先連絡。

內容簡介

本書循序漸進地講解了使用Python語言實現強化學習的核心算法開發的知識,內容涵蓋了數據處理、算法、大模型等知識,並通過具體實例的實現過程演練了各個知識點的使用方法和使用流程。《強化學習基礎、原理與應用》共分為17章,主要內容包括強化學習基礎、馬爾可夫決策過程、蒙特卡洛方法、Q-learning與貝爾曼方程、時序差分學習和SARSA算法、DQN算法、DDQN算法、競爭DQN算法、REINFORCE算法、Actor-Critic算法、PPO算法、TRPO算法、連續動作空間的強化學習、值分散式算法、基於模型的強化學習、多智能體強化學習實戰:Predator-Prey遊戲及自動駕駛系統。本書內容簡潔而不失技術深度,以極簡的文字介紹了複雜的案例,易於閱讀和理解。 本書適用於已經了解Python語言基礎語法的讀者,想進一步學習強化學習、機器學習、深度學習及相關技術的讀者,還可作為大專院校相關專業的師生用書和培訓機構的教材使用。

目錄

第1章 強化學習基礎
1 1 強化學習概述
1 1 1 強化學習的背景
1 1 2 強化學習的核心特點
1 1 3 強化學習與其他機器學習方法的區別
1 2 強化學習的應用領域
1 2 1 機器人控制與路徑規劃
1 2 2 遊戲與虛擬環境
1 2 3 金融與投資決策
1 2 4 自動駕駛與智能交通
1 2 5 自然語言處理
1 3 強化學習中的常用概念
1 3 1 智能體、環境與交互
1 3 2 獎勵與回報的概念
1 3 3 馬爾可夫性質與馬爾可夫決策過程
1 3 4 策略與價值函數
第2章 馬爾可夫決策過程
2 1 馬爾可夫決策過程的定義
2 1 1 馬爾可夫決策過程的核心思想
2 1 2 馬爾可夫決策過程的形式化定義
2 2 馬爾可夫決策過程的組成要素
2 2 1 狀態空間與狀態的定義
2 2 2 行動空間與行動的定義
2 2 3 獎勵函數的作用與定義
2 2 4 轉移概率函數的意義與定義
2 2 5 實例分析:構建一個簡單的MDP
2 3 值函數與策略
2 3 1 值函數與策略的定義
2 3 2 值函數與策略的用法舉例
2 4 貝爾曼方程
2 4 1 貝爾曼預測方程與策略評估
2 4 2 貝爾曼最優性方程與值函數之間的關係
2 4 3 貝爾曼最優性方程與策略改進
2 4 4 動態規劃與貝爾曼方程的關係
2 4 5 貝爾曼方程在強化學習中的應用
第3章 蒙特卡洛方法
3 1 蒙特卡洛預測
3 1 1 蒙特卡洛預測的核心思想
3 1 2 蒙特卡洛預測的步驟與流程
3 1 3 蒙特卡洛預測的樣本更新與更新規則
3 2 蒙特卡洛控制
3 2 1 蒙特卡洛控制的目標與意義
3 2 2 蒙特卡洛控制的策略評估與改進
3 2 3 蒙特卡洛控制的更新規則與收斂性
3 3 探索與策略改進
3 3 1 探索與利用的平衡再探討
3 3 2 貪婪策略與ε-貪婪策略的比較
3 3 3 改進探索策略的方法
3 3 4 探索策略對蒙特卡洛方法的影響
第4章 Q-learning與貝爾曼方程
4 1 Q-learning算法的原理
4 1 1 Q-learning的動作值函數
4 1 2 Q-learning算法中的貪婪策略與探索策略
4 1 3 Q-learning算法的收斂性與收斂條件
4 2 貝爾曼方程在Q-learning算法中的應用
4 2 1 Q-learning算法與貝爾曼最優性方程的關係
4 2 2 貝爾曼方程的迭代計算與收斂
4 2 3 Q-learning算法中貝爾曼方程的實際應用
4 3 強化學習中的Q-learning
4 3 1 ε-貪婪策略與探索的關係
4 3 2 Q-learning中探索策略的變化與優化
4 3 3 探索策略對Q-learning性能的影響分析
4 3 4 使用Q-learning尋找某股票的買賣點
第5章 時序差分學習和SARSA算法
5 1 時序差分預測
5 1 1 時序差分預測的核心思想
5 1 2 時序差分預測的基本公式
5 1 3 時序差分預測與狀態值函數
5 1 4 時序差分預測的實例分析
5 2 SARSA算法
5 2 1 SARSA算法的核心原理和步驟
5 2 2 SARSA算法的更新規則
5 2 3 SARSA算法的收斂性與收斂條件
5 2 4 SARSA算法實例分析
5 3 Q-learning算法的時序差分更新
5 3 1 時序差分學習與Q-learning的結合
5 3 2 Q-learning的時序差分更新算法
第6章 DQN算法
6 1 引言與背景
6 2 DQN算法的基本原理
6 3 DQN的網絡結構與訓練過程
6 3 1 DQN的神經網絡結構
6 3 2 DQN算法的訓練過程
6 3 3 經驗回放
6 3 4 目標網絡
6 4 DQN算法的優化與改進
6 4 1 DDQN
6 4 2 競爭DQN
6 4 3 優先經驗回放
6 5 基於DQN算法的自動駕駛程序
6 5 1 項目介紹
6 5 2 具體實現
第7章 DDQN算法
7 1 DDQN對標準DQN的改進
7 2 雙重深度Q網絡的優勢
7 3 《超級馬里奧》遊戲的DDQN強化學習實戰
7 3 1 項目介紹
7 3 2 gym_super_mario_bros庫的介紹
7 3 3 環境預處理
7 3 4 創建DDQN模型
7 3 5 模型訓練和測試
第8章 競爭DQN算法
8 1 競爭DQN算法原理
8 1 1 競爭DQN算法的動機和核心思想
8 1 2 競爭DQN網絡架構
8 2 競爭DQN的優勢與改進
8 2 1 分離狀態價值和動作優勢的好處
8 2 2 優化訓練效率與穩定性
8 2 3 解決過度估計問題的潛力
8 3 股票交易策略系統
8 3 1 項目介紹
8 3 2 數據準備
8 3 3 數據拆分與時間序列
8 3 4 Environment(環境)
8 3 5 DQN算法實現
8 3 6 DDQN算法的實現
8 3 7 競爭DQN算法的實現
第9章 REINFORCE算法
9 1 策略梯度介紹
9 1 1 策略梯度的重要概念和特點
9 1 2 策略梯度定理的數學推導
9 2 REINFORCE算法基礎
9 2 1 REINFORCE算法的基本原理
9 2 2 REINFORCE算法的更新規則
9 2 3 基線函數與REINFORCE算法的優化
第10章 Actor-Crit
詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於客服中心或Line或本社留言板留言,我們即儘速上架。
規格說明
大陸簡體正版圖書,訂購後正常情形下約兩周可抵台。
運送方式
已加入購物車
已更新購物車
網路異常,請重新整理