內容簡介
強化學習是三種基本機器學習範式之一,與監督學習和無監督學習並駕齊驅。強化學習是一種自我進化的機器學習類型,它使我們更接近於實現真正的人工智能(AI)。強化學習是機器學習的一個分支,其中學習是通過與環境交互來進行的。強化學習是面向目標的學習,不教學習者採取什麼行動,相反,學習者從其行為的結果中學習。從早年的AlphaGo到最近的ChatGPT等人工智能產品表明,強化學習已成為人工智能研究中最活躍的領域之一。 沒有實例做背景的概念是沒有生命力的,沒有實踐支撐的演算法是學不會的。本書試圖通過各種類型的實例來介紹強化學習的各個方面,盡量避免因分類理念而造成的麻煩。使用本書時最好先看本書1 1節和1 2節的一些例子,明白這些例子要做些什麼,不必完全明白其中使用的代碼。然後瀏覽1 7節的例子,這些例子中的問題是後面要解決的,因此需要先有些印象。在此之後,大致看看1 3~1 6節的知識性內容,即使不能夠馬上理解這些內容,也沒有關係,但要盡量掌握第2章關於馬爾可夫決策過程的理論知識,如果覺得理解起來困難,可以結合第3章中的各種更加具體的強化學習方法及具體例子的編程,還可以回顧第2章及第1章的有關內容。這種在實踐和理論(方法)之間反覆相互促進的方式是學好強化學習的關鍵。最後3章包含了關於Python、PyTorch的內容及一些數學知識。這些內容讀者可根據需要來學習或參考。 本書是一本面向希望從頭開始學習強化學習的數據科學類專業(包括統計類專業)的師生、實際工作者、機器學習開發人員和深度學習愛好者等廣大讀者的強化學習入門書籍。作者簡介
張敏,重慶工商大學講師。以第一作者公開發表了CSSCI/CSCD/SCI文章多篇,主持或參与國家及省部級課題多項,以第二作者出版關於數據科學的教材多部。目錄
第一部分 強化學習基礎與實踐