內容簡介
本書全面且深入地呈現了深度學習領域的知識體系,系統梳理了該領域的核心知識,闡述了深度學習的關鍵概念、基礎理論及核心思想,剖析了當代深度學習架構與技術。全書共 20 章 。本書首先介紹深度學習的發展歷程、基本概念及其在諸多領域(如醫療診斷、圖像合成等)產生的深遠影響;繼而深入探討支撐深度學習的數學原理,包括概率、標準分佈等;在網路模型方面,從單層網路逐步深入到多層網路、深度神經網路,詳細講解其結構、功能、優化方法及其在分類、回歸等任務中的應用,同時涵蓋卷積網路、Transformer 等前沿架構及其在電腦視覺、自然語言處理等領域的獨特作用。本書還對正則化、採樣、潛變數、生成對抗網路、自編碼器、擴散模型等關鍵技術展開深入分析,闡釋其原理、演算法流程及實際應用場景。對於機器學習領域的新手,本書是全面且系統的入門教材,可引領其踏入深度學
習的知識殿堂;對於機器學習領域從業者,本書是深化專業知識、緊跟技術前沿的有力工具;對於相關專業學生,本書是學習深度學習課程、開展學術研究的優質參考資料。無論是理論學習、實踐應用還是學術研究,本書都是讀者在深度學習領域探索與前行的重要指引。
作者簡介
克里斯多夫 M 畢曉普(Christopher M Bishop)
微軟公司技術研究員、微軟研究 院 科 學 智 能 中 心(Microsoft Research AI4Science)負責人。劍橋達爾文學院院士、英國皇家工程院院士、愛丁堡皇家學會院士和倫敦皇家學會院士。曾出版經典著作《模式識別與機器學習》(Pattern Recognition and Machine Learning)。
休 畢曉普(Hugh Bishop)
Wayve 公司(倫敦一家基於端到端深度學習的自動駕駛公司)應用科學家,負責設計和訓練深度神經網路。擁有劍橋大學工程系機器學習和機器智慧專業碩士
學位、杜倫大學電腦科學工程學碩士學位。
精彩書評
Christopher M Bishop 在 1995 年出版了一本非常出色的神經網路教科書,他對這一領域及其核心思想有著深刻的瞭解。他在解釋神經網路方面的多年經驗使他非常善於以簡單的方式闡述複雜的觀點,看到他將這些技能應用於該領域革命性的新發展,我們感到非常高興。
—— 傑佛瑞 辛頓(Geoffrey Hinton), 2024 年諾貝爾物理學獎得主,2018 年圖靈獎得主
隨著近年來深度學習和人工智慧研究領域的爆炸式發展,以及人工智慧應用的快速增長,我們迫切需要一本關於這一主題的現代教科書。Christopher M Bishop 的這本書應運而生,本書介紹了有監督和無監督學習的演算法、現代深度學習架構等,以及如何將這些應用於各種領域。
—— 楊立昆(Yann LeCun),2018 年圖靈獎得主
本書以概率論為堅實基礎,具有深厚的教育意義,將帶領讀者瞭解深度學習的主要概念和進展。這些概念正在為當前的工業人工智慧系統提供動力,並有可能成為通用人工智慧進一步發展的基礎。
—— 約書亞 本吉奧 (Yoshua Bengio),2018 年圖靈獎得主
目錄
第 1 章 深度學習革命 1
1 1 深度學習的影響 2
1 1 1 醫療診斷 2
1 1 2 蛋白質結構預測 3
1 1 3 圖像合成 4
1 1 4 大語言模型 5
1 2 一個教學示例 6
1 2 1 合成資料 7
1 2 2 線性模型 7
1 2 3 誤差函數 8
1 2 4 模型複雜度 8
1 2 5 正則化 11
1 2 6 模型選擇 12
1 3 機器學習簡史 14
1 3 1 單層網路 15
1 3 2 反向傳播 16
1 3 3 深度網路 17
第 2 章 概 率 21
2 1 概率法則 23
2 1 1 醫學篩查示例 23
2 1 2 加和法則和乘積法則 24
2 1 3 貝葉斯定理 26
2 1 4 再看醫學篩查示例 27
2 1 5 先驗概率和後驗概率 28
2 1 6 獨立變數 28
2 2 概率密度 28
2 2 1 分佈的示例 30
2 2 2 期望和協方差 31
2 3 高斯分佈 32
2 3 1 均值和方差 32
2 3 2 似然函數 33
2 3 3 最大似然的偏差 35
2 3 4 線性回歸 36
2 4 密度變換 37
多元分佈 39
2 5 資訊理論 40
2 5 1 熵 40
2 5 2 物理學視角 42
2 5 3 微分熵 43
2 5 4 最大熵 44
2 5 5 Kullback-Leibler 散度 45
2 5 6 條件熵 47
2 5 7 互信息 47
2 6 貝葉斯概率 47
2 6 1 模型參數 48
2 6 2 正則化 49
2 6 3 貝葉斯機器學習 50
習題 50
第 3 章 標準分佈 55
3 1 離散變數 56
3 1 1 伯努利分佈 56
3 1 2 二項分佈 57
3 1 3 多項分佈 58
3 2 多元高斯分佈 59
3 2 1 高斯幾何 60
3 2 2 矩 62
3 2 3 局限性 64
3 2 4 條件分佈 64
3 2 5 邊緣分佈 67
3 2 6 貝葉斯定理 70
3 2 7 最大似然 72
3 2 8 序貫估計 73
3 2 9 高斯混合 74
3 3 週期變數 76
馮 米塞斯分佈 76
3 4 指數族分佈 80
充分統計量 84
3 5 非參數化方法 85
3 5 1 長條圖 85
3 5 2 核密度 86
3 5 3 最近鄰 88
習題 90
第 4 章 單層網路:回歸 97
4 1 線性回歸 97
4 1 1 基函數 98
4 1 2 似然函數 100
4 1 3 最大似然 101
4 1 4 最小二乘的幾何表示 102
4 1 5 序貫學習 102
4 1 6 正則化最小二乘法 103
4 1 7 多重輸出 104
4 2 決策理論 105
4 3 偏差 - 方差權衡 108
習題 112
第 5 章 單層網路:分類 115
5 1 判別函數 116
5 1 1 二分類 116
5 1 2 多分類 117
5 1 3 1-of-K 編碼方案 119
5 1 4 最小二乘分類 119
5 2 決策理論 121
5 2 1 誤分類率 122
5 2 2 預期損失 124
5 2 3 拒絕選項 125
5 2 4 推理和決策 125
5 2 5 分類器精度 128
5 2 6 ROC 曲線 129
5 3 生成分類器 131
5 3 1 連續輸入 132
5 3 2 最大似然解 134
5 3 3 離散特徵 136
5 3 4 指數族分佈 136
5 4 判別分類器 137
5 4 1 啟動函數 137
5 4 2 固定基函數 138
5 4 3 邏輯斯諦回歸 139
5 4 4 多類邏輯斯諦回歸 140
5 4 5 probit 回歸 141
5 4 6 規範連接函數 143
習題 144
第 6 章 深度神經網路 149
6 1 固定基函數的局限性 150
6 1 1 維度詛咒 150
6 1 2 高維空間 152
6 1 3 資料流程形 153
6 1 4 資料依賴的基函數 155
6 2 多層網路 156
6 2 1 參數矩陣 157
6 2 2 通用近似 158
6 2 3 隱藏單元啟動函數 159
6 2 4 權重空間的對稱性 161
6 3 深度網路 162
6 3 1 層次化表示 162
6 3 2 分散式表示 163
6 3 3 表示學習 163
6 3 4 遷移學習 164
6 3 5 對比學習 165
6 3 6 通用網路結構 168
6 3 7 張量 168
6 4 誤差函數 169
6 4 1 回歸 169
6 4 2 二分類 170
6 4 3 多分類 171
6 5 混合密度網路 172
6 5 1 機器人運動學示例 172
6 5 2 條件混合分佈 173
6 5 3 梯度優化 175
6 5 4 預測分佈 176
習題 177
第 7 章 梯度下降 181
7 1 錯誤平面 182
局部二次近似 183
7 2 梯度下降優化 184
7 2 1 梯度資訊的使用 185
7 2 2 批量梯度下降 185
7 2 3 隨機梯度下降 186
7 2 4 小批量方法 187
7 2 5 參數初始化 188
7 3 收斂 189
7 3 1 動量 190
7 3 2 學習率調度 192
7 3 3 AdaGrad、RMSProp 與 Adam 演算法 193
7 4 正則化 195
7 4 1 數據歸一化 195
7 4 2 批量歸一化 196
7 4 3 層歸一化 197
習題 198
第 8 章 反向傳播 201
8 1 梯度計算 202
8 1 1 單層網路 202
8 1 2 一般前饋網路 202
8 1 3 簡單示例 205
8 1 4 數值微分法 206
8 1 5 雅可比矩陣 207
8 1 6 黑塞矩陣 209
8 2 自動微分法 211
8 2 1 前向模式自動微分 213
8 2 2 逆模式自動微分 215
習題 217
第 9 章 正則化 219
9 1 歸納偏置 220
9 1 1 逆問題 220
9 1 2 無免費午餐定理 221
9 1 3 對稱性和不變性 222
9 1 4 等變性 224
9 2 權重衰減 225
9 2 1 一致性正則化項 226
9 2 2 廣義權重衰減 228
9 3 學習曲線 230
9 3 1 早停法 230
9 3 2 雙重下降 231
9 4 參數共用 234
軟權重共用 234
9 5 殘差連接 236
9 6 模型平均 239
dropout 241
習題 243
第 10 章 卷積網路 247
10 1 電腦視覺 248
圖像資料 248
10 2 卷積濾波器 249
10 2 1 特徵檢測器 250
10 2 2 平移等變性 251
10 2 3 填充 252
10 2 4 跨步卷積 253
10 2 5 多維卷積 253
10 2 6 池化 255
10 2 7 多層卷積 256
10 2 8 網路架構示例 257
10 3 視覺化訓練好的 CNN 259
10 3 1 視覺皮層 259
10 3 2 視覺化訓練好的濾波器 260
10 3 3 顯著性圖 262
10 3 4 對抗攻擊 263
10 3 5 合成圖像 264
10 4 目標檢測 265
10 4 1 邊界框 265
10 4 2 交並比 266
10 4 3 滑動窗口 267
10 4 4 跨尺度檢測 268
10 4 5 非最大抑制 269
10 4 6 快速區域卷積神經網路 270
10 5 圖像分割 270
10 5 1 卷積分割 270
10 5 2 上採樣 271
10 5 3 全卷積網路 272
10 5 4 U-Net 架