目錄
目錄
前言
第1章 緒論 1
1 1 強化學習發展歷程 1
1 2 深度強化學習基礎算法 2
1 2 1 基於值函數的深度強化學習 2
1 2 2 基於策略的深度強化學習 5
1 2 3 深度強化學習的應用與挑戰 8
1 3 多智能體強化學習 11
1 3 1 多智能體強化學習難點問題 11
1 3 2 多智能體強化學習常用算法與結構 12
1 3 3 多智能體強化學習應用與挑戰 16
1 4 本章 小結 17
參考文獻 18
第2章 強化學習基本概念與理論 25
2 1 智能體–環境交互模型 25
2 2 策略與值函數 26
2 3 基於值函數的強化學習算法 28
2 4 基於策略的強化學習算法 30
2 5 本章 小結 33
參考文獻 33
第3章 面向輸入受限系統的深度強化學習 34
3 1 引言 34
3 2 問題描述 36
3 3 解算器–評價器結構與離軌策略學習算法 37
3 3 1 基於平方和的策略評價器 37
3 3 2 動作解算器 38
3 3 3 離軌策略學習算法 39
3 3 4 算法收斂性和策略*優性分析 41
3 4 仿真實驗 48
3 4 1 一般線性系統的控制仿真 48
3 4 2 非線性振盪器的控制仿真 51
3 4 3 平衡車系統的控制仿真 54
3 4 4 二自由度機械臂系統的控制仿真 55
3 5 本章 小結 59
參考文獻 59
第4章 狀態依賴輸入約束的強化學習優化控制 62
4 1 引言 62
4 2 問題描述 63
4 3 動作映射機制 65
4 4 基於動作映射的強化學習框架 72
4 4 1 執行器–評價器網絡設計 79
4 4 2 異策略學習算法 80
4 5 值函數的連續性分析 82
4 6 仿真實驗 84
4 6 1 線性系統的控制仿真 85
4 6 2 輸入受限系統的控制仿真 87
4 6 3 二自由度機械臂系統的控制仿真 90
4 7 本章 小結 91
參考文獻 92
第5章 自治切換系統的強化學習優化控制 94
5 1 引言 94
5 2 問題描述 95
5 3 算法設計及實現 97
5 3 1 精確 Q 學習算法 97
5 3 2 近似 Q 學習算法 98
5 3 3 算法執行過程 99
5 4 算法理論分析 101
5 4 1 近似值函數迭代算法回顧 101
5 4 2 目標函數連續性分析 101
5 4 3 算法收斂性分析 102
5 4 4 切換策略穩定性分析 103
5 5 仿真實驗 104
5 5 1 仿真實驗一 105
5 5 2 仿真實驗二 107
5 5 3 仿真實驗三 111
5 6 本章 小結 117
參考文獻 117
第6章 受控切換系統的強化學習優化控制 119
6 1 引言 119
6 2 問題描述 120
6 3 算法設計 121
6 3 1 混合 Q 學習算法 121
6 3 2 混合歸一化優勢函數算法 122
6 4 算法理論分析 124
6 4 1 HQL 算法特性分析 124
6 4 2 HNAF 算法特性分析 128
6 5 仿真實驗 130
6 5 1 仿真實驗一 130
6 5 2 仿真實驗二 133
6 5 3 仿真實驗三 135
6 6 本章 小結 137
參考文獻 137
第7章 基於任務分解的多智能體強化學習協同控制 138
7 1 引言 138
7 2 問題描述 140
7 3 基於任務分解的學習算法 140
7 3 1 值函數分解 141
7 3 2 基於任務分解的多智能體 Q 學習算法 142
7 3 3 基於任務分解的多智能體確定性策略梯度算法 146
7 4 仿真實驗 151
7 4 1 仿真實驗一 151
7 4 2 仿真實驗二 154
7 4 3 仿真實驗三 157
7 5 本章 小結 160
參考文獻 161
第8章 基於後繼特徵的多智能體遷移強化學習 163
8 1 引言 163
8 2 問題描述 164
8 3 基於後繼特徵的多智能體強化學習及任務遷移 165
8 3 1 基於後繼特徵的多智能體強化學習框架 166
8 3 2 基於後繼特徵的目標任務知識遷移方法 170
8 3 3 關於目標任務快速啟動策略的理論分析 173
8 4 仿真實驗 177
8 4 1 仿真實驗環境介紹 177
8 4 2 獎勵特徵函數的設計 179
8 4 3 實驗結果分析與討論 180
8 5 本章 小結 187
參考文獻 188
第9章 基於鄰居動作值函數的多智能體一致性控制 191
9 1 引言 191
9 2 問題描述 193
9 2 1 多智能體系統 193
9 2 2 *優控制 194
9 3 算法設計 196
9 3 1 基於鄰居動作值函數的多智能體一致性算法 196
9 3 2 算法執行過程 198
9 4 收斂性分析 199
9 4 1 帶領導者的多智能體系統:折扣因子γ∈ [0,1) 200
9 4 2 帶領導者的多智能體系統:折扣因子γ= 1 202
9 4 3 無領導者的多智能體系統:折扣因子γ∈ [0,1] 204
9 4 4 穩定性分析 204
9 5 仿真實驗 205
9 5 1 帶領導者的多智能體系統控制仿真 206
9 5 2 無領導者的多智能體系統控制仿真 208
9 6 本章 小結 210
參考文獻 210
第10章 基於自學習通信多智能體強化學習的合作追捕 213
10 1 引言 213
10 2 合作追捕學習算法 215
10 2 1 環形拓撲網絡結構下合作追捕學習算法 215
10 2 2 主從式線形拓撲網絡結構下合作追捕學習算法 219
10 3 仿真實驗 223
10 3 1 仿真環境描述 223
10 3 2 訓練實施方式 225
10 3 3 實驗結果與分析 227
10 4 本章 小結 233
參考文獻 233
第11章 強化學習在飛行器控制中的應用 236
11 1 引言 236
11 2 問題描述 238
11 3 積分補償確定性策略梯度控制器 240
11 3 1 確定性策略梯度算法 241
11 3 2 帶積分補償的確定性策略梯度算法 243
11 3 3 四旋翼 DPG-IC 控制器設計 244
11 4 基於 DPG-IC 的兩段式訓練算法 247
11 4 1 離線訓練階段 247
11 4 2 在線訓練階段 249
11 5 仿真實驗 249
11 5 1 訓練和測試環境 250
11 5 2 離線訓練過程與結果 251
11 5 3 離線控制策略實驗和結果 254
11 5 4 在線訓練實驗和結果 260
11 6 本章 小結 261
參考文獻 261
第12章 強化學習在移動機器人導航與避障中的應用 264
12 1 引言 264
12 2 問題描述 266
12 3 模塊化深度強化學習導航與避障算法 268
12 3 1 局部避障模塊 269
12 3 2 全域導航模塊 272
12 3 3 動作調度模塊 273
12 4 仿真實驗 275
12 4 1 深度雙流 Q 網絡局部避障訓練與對比實驗 276
12 4 2 導航模塊離線訓練與測試結果 280
12 4 3 模塊化深度強化學習在線訓練與對比測試結果 280
12 5 本章 小結 285
參考文獻 285
第13章 強化學習開源測試環境與算法庫 288
13 1 引言 288
13 2 強化學習開源測試環境 288
13 2 1 OpenAI Gym 289
13 2 2 Unity ML-Agents Toolkit 289
13 2 3 PyBullet 290
13 2 4 DeepMind Control Suite 290
13 3 玄策強化學習開源算法庫 291
13 3 1 軟件概述 291
13 3 2 軟件主要功能詳解 294
13 3 3 軟件使用說明 302
13 4 本章 小結 305
第14章 總結與展望 306
精彩書摘
第 1 章 緒 論
1 1 強化學習發展歷程
強化學習 (reinforcement learning, RL) 是受到生物學習規律的啟發,以試錯機制與環境進行交互,通過*大化累計獎勵的方式來獲得*優策略的機器學習方法 [1,2]。強化學習的起源和發展歷程具有動物行為學、心理學、神經科學、計算機科學、控制科學等多學科交叉的背景。早在 1898 年,Thorndike [3] 通過研究貓的行為發現了動物的試錯學習機制。1957 年,Bellman [4] 提出了求解*優控制問題的動態規劃 (dynamic programming, DP) 方法,將迭代求解機制與試錯學習的方法相結合,並且引入了馬爾可夫決策過程 (Markov decision process, MDP) 用於描述隨機和離散的被控模型。1965 年,Waltz 等 [5] 在控制理論中提出了通過獎懲手段和試錯方法進行學習的基本思想。1972 年,Klopf [6] 將動物學習心理學的基本原理與試錯學習的計算模型相結合,提出了時間差分 (tempral difference,TD) 學習方法。1992 年,Watkins 等 [7] 將*優控制理論、貝爾曼方程、馬爾可夫決策過程與時間差分學習結合,提出了著名的 Q 學習 (Q learning) 算法,成為強化學習發展早期*重大的突破。
近年來,深度學習的快速發展和計算能力的提升給解決第1強化學習在高維狀態和動作空間下值函數和策略的表達與學習這類固有難題帶來了新的希望。研究人員將深度神經網絡強大的特徵提取和表示能力與強化學習的決策和控制能力相結合,提出了深度強化學習 (deep reinforcement learning, DRL)。2013 年,GoogleDeepMind 團隊將深度卷積神經網絡與 Q 學習算法相結合,在 Atari(雅達利) 遊戲中達到了專業玩家的操作水平 [8]。該項成果也標誌著深度強化學習的誕生,開創了強化學習發展的新階段。隨後 DRL 在多個領域取得引人矚目的成果:DeepMind團隊研製 AlphaGo 系列圍棋程序多次擊敗了人類專業圍棋冠軍 [9,10];OpenAI 團隊和 DeepMind 團隊分別開發的電子遊戲程序 OpenAI Five [11] 和 AlphaStar [12]在 Dota2 和 StarCraft II 遊戲中擊敗人類專業玩家團隊。除了對弈和電子遊戲領域,DRL 在機器人控制 [13,14]、自動駕駛 [15]、第1系統 [16]、智能電網 [17] 等多種複雜任務中都展現出強大的威力。從此,DRL 憑藉其在解決複雜決策和控制問題中的顯著優勢和廣泛的應用前景,成為多個領域的研究熱點[2,18-20]。
1 2 深度強化學習基礎算法
早期的強化學習方法與同時期的其他機器學習算法相同,受到存儲空間和計算能力的限制,在處理高維傳感數據方面存在很大的局限性,因此只能處理低維的狀態和動作。深度學習的發展使得從視頻、語音等高維感知數據中自動學習特徵表示成為可能,一系列的深度神經網絡結構被提出,如卷積神經網絡 [21](convolutionalneural network, CNN)、循環神經網絡 (recurrent neural network, RNN)、深度殘差網絡 (deep residual network, DRN) 等結構。DRL 將深度學習的高維特徵提取能力與強化學習的決策與控制能力相結合,便可以解決傳統強化學習在高維狀態和動作空間下的值函數和策略表達的難題,