內容簡介
隨著人工智能時代的到來,特別是AlphaGo、ChatGPT等突破性技術的問世,深度強化學習算法已展現出其獨特的優勢,並在處理複雜決策問題方面發揮出巨大潛力。深度強化學習算法將深度學習的感知能力與強化學習的決策能力相結合,實現了端到端的學習,是一種更加接近於人類思維方式的人工智能算法。然而,目前對深度強化學習算法的研究仍處於初步發展階段,面臨諸多挑戰,包括樣本利用效率低、「探索和利用」難以平衡及獎勵函數設計困難等問題。本書系統闡述了深度強化學習算法的理論和原理,針對其在量化金融、工業運維等應用領域所面臨的研究難點,展開相關研究,並創新性地提出相應的改進算法,以推動深度強化學習算法在智能決策領域的進一步發展。作者簡介
馬聰,女,1994年生,西安交通大學統計學博士,西北大學經濟管理學院講師。任中國運籌學會會員、陝西省證券研究會會員。主要從事機器學習算法、量化金融、經濟金融大數據等方面的研究。目前在國內外學術期刊發表論文10餘篇,主持國家自然科學基金項目、教育部人文社科項目等4項,參与多項國家級項目。目錄
1 緒論