*完成訂單後正常情形下約兩周可抵台。 *本賣場提供之資訊僅供參考,以到貨標的為正確資訊。 印行年月:202309*若逾兩年請先於私訊洽詢存貨情況,謝謝。 台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。 書名:深度強化學習-演算法原理與金融實踐入門 ISBN:9787302641063 出版社:清華大學 著編譯者:謝文傑 周煒星 頁數:245 所在地:中國大陸 *此為代購商品 書號:1559390 可大量預訂,請先連絡。 內容簡介 深度強化學習是人工智慧和機器學習的重要分支領域,有著廣泛應用,如AlphaGo和ChatGPT。本書作為該領域的入門教材,在內容上儘可能覆蓋深度強化學習的基礎知識和經典演算法。全書共10章,大致分為4部分:第1部分(第1∼2章)介紹深度強化學習背景(智能決策、人工智慧和機器學習);第2部分(第3∼4章)介紹深度強化學習基礎知識(深度學習和強化學習);第3部分(第5∼9章)介紹深度強化學習經典演算法(DQN、AC、DDPG等);第4部分(第10章)為總結和展望。每章都附有習題並介紹了相關閱讀材料,以便有興趣的讀者進一步深入探索。 本書可作為高等院校計算機、智能金融及相關專業的本科生或研究生教材,也可供對深度強化學習感興趣的研究人員和工程技術人員閱讀參考。作者簡介 謝文傑,男,湖南瀏陽人,應用數學博士,上海市晨光學者。現任職華東理工大學商學院金融學系副教授、碩士研究生導師、金融物理研究中心成員,主要研究複雜金融網路、機器學習、深度強化學習、金融風險管理等。獲2016年度上海市自然科學獎二等獎(4/5),主持完成4項國家或省部級科研項目。目錄 第1章 智能決策與複雜系統1 1 智能決策 1 1 1 智能決策簡介 1 1 2 複雜金融系統中的智能決策 1 2 複雜系統 1 2 1 複雜性科學 1 2 2 複雜系統定義 1 2 3 複雜系統類型 1 2 4 複雜系統研究 1 3 複雜環境特徵 1 3 1 完全可觀察的和部分可觀察的環境 1 3 2 單智能體和多智能體 1 3 3 確定的和隨機的環境 1 3 4 片段式和延續式環境 1 3 5 靜態和動態環境 1 3 6 離散和連續環境 1 3 7 已知和未知環境 1 4 複雜環境建模 1 5 智能體建模 1 5 1 典型決策系統模型框架 1 5 2 智能體建模框架 1 6 智能決策系統建模 1 6 1 問題提煉 1 6 2 數據採集 1 6 3 模型構建 1 6 4 演算法實現 1 6 5 模型訓練 1 6 6 模型驗證 1 6 7 模型改進 1 6 8 模型運用 1 7 應用實踐 第1章習題 第2章 人工智慧與機器學習 2 1 人工智慧簡介 2 1 1 人工智慧+農業 2 1 2 人工智慧+教育 2 1 3 人工智慧+工業 2 1 4 人工智慧+金融 2 2 人工智慧前沿 2 3 人工智慧簡史 2 4 人工智慧流派 2 4 1 符號主義學派 2 4 2 聯結主義學派 2 4 3 行為主義學派 2 5 人工智慧基礎 2 5 1 運籌學 2 5 2 最優化控制 2 5 3 交叉學科 2 5 4 人工智慧和機器學習相關會議 2 6 機器學習分類 2 6 1 監督學習 2 6 2 無監督學習 2 6 3 強化學習 2 7 機器學習基礎 2 7 1 激活函數 2 7 2 損失函數 2 7 3 優化演算法 2 8 應用實踐 第2章習題 第3章 深度學習入門 3 1 深度學習簡介 3 1 1 深度學習與人工智慧 3 1 2 深度學習與機器學習 3 1 3 深度學習與表示學習 3 2 深度神經網路 3 2 1 深度神經網路構建 3 2 2 深度神經網路實例 3 3 深度卷積神經網路 3 4 深度循環神經網路 3 5 深度圖神經網路 3 5 1 圖神經網路簡介 3 5 2 圖神經網路聚合函數 3 5 3 圖神經網路更新函數 3 5 4 圖神經網路池化函數 3 6 深度神經網路訓練 3 6 1 模型訓練挑戰 3 6 2 數據預處理 3 6 3 參數初始化 3 6 4 學習率調整 3 6 5 梯度優化演算法 3 6 6 超參數優化 3 6 7 正則化技術 3 7 應用實踐 3 7 1 TensorFlow安裝 3 7 2 TensorFlow基本框架 3 7 3 TensorBoard 3 7 4 scikit-learn 3 7 5 Keras 第3章習題 第4章 強化學習入門 4 1 強化學習簡介 4 2 馬爾可夫決策過程 4 3 動態規劃方法 4 3 1 策略函數 4 3 2 獎勵函數 4 3 3 累積回報 4 3 4 狀態值函數 4 3 5 狀態-動作值函數 4 3 6 狀態-動作值函數與狀態值函數的關係 4 3 7 Bellman方程 4 3 8 策略迭代演算法 4 3 9 值函數迭代演算法 4 4 蒙特卡洛方法 4 4 1 蒙特卡洛估計 4 4 2 蒙特卡洛強化學習演算法偽代碼 4 5 時序差分學習 4 5 1 時序差分學習演算法 4 5 2 時序差分學習演算法、動態規劃和蒙特卡洛演算法比較 4 5 3 Q-learning 4 5 4 SARSA 4 6 策略梯度方法 4 7 應用實踐 4 7 1 強化學習的智能交易系統框架 4 7 2 智能交易系統環境模型編程 第4章習題 第5章 深度強化學習Q網路 5 1 深度Q網路 5 1 1 智能策略 5 1 2 策略函數與Q表格 5 1 3 策略函數與Q網路 5 2 DQN演算法介紹 5 2 1 經驗回放 5 2 2 目標網路 5 3 DQN演算法 5 4 DoubleDQN 5 4 1 DoubleDQN背景 5 4 2 雙Q網路結構 5 4 3 DoubleDQN演算法偽代碼 5 5 DuelingDQN 5 5 1 DuelingDQN演算法框架簡介 5 5 2 DuelingDQN演算法核心思想 5 6 DistributionalDQN 5 7 DQN的其他改進 5 7 1 優先順序經驗回放 5 7 2 雜訊網路DQN 5 7 3 多步(Multi-step)DQN 5 7 4 分散式訓練 5 7 5 DQN演算法改進 5 7 6 DQN演算法總結 5 8 應用實踐 5 8 1 智能投資決策系統 5 8 2 核心代碼解析 5 8 3 模型訓練 5 8 4 模型測試 第5章習題 第6章 深度策略優化方法 6 1 策略梯度方法簡介 6 1 1 DQN的局限 6 1 2 策略梯度方法分類 6 2 隨機性策略梯度演算法 6 2 1 軌跡數據 6 2 2 目標函數 6 2 3 梯度計算 6 2 4 更新策略 6 3 隨機性策略梯度定理 6 3 1 隨機性策略梯度定理介紹 6 3 2 隨機性策略梯度定理分析 6 4 策略梯度優化幾種實現方法 6 4 1 策略梯度優化理論 6 4 2 完整軌跡的累積獎勵回報 6 4 3 部分軌跡的累積獎勵回報 6 4 4 詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。 |