目錄
目錄
前言
第1章 緒論 1
1 1 人工智能與自然語言處理 1
1 1 1 人工智能 1
1 1 2 自然語言處理 1
1 1 3 自然語言處理知識體系 2
1 2 自然語言處理任務 2
1 3 自然語言處理技術 3
1 3 1 自然語言處理學派 3
1 3 2 自然語言處理發展歷程及技術變遷 4
1 4 自然語言處理技術支撐理論及資源 6
1 5 本書知識體系 8
參考文獻 10
第2章 深度學習自然語言處理數據資源 11
2 1 任務數據資源 12
2 1 1 文本分類 12
2 1 2 情感分析 12
2 1 3 機器翻譯 13
2 1 4 文本摘要 13
2 1 5 機器閱讀理解 14
2 1 6 問答系統 14
2 2 預訓練數據資源 15
2 2 1 網頁數據 15
2 2 2 書籍 16
2 2 3 學術資料 17
2 2 4 維基百科 17
2 2 5 代碼 18
2 3 預訓練微調數據資源 18
2 3 1 指令微調數據集 18
2 3 2 人類價值觀對齊數據集 19
2 4 其他資源 20
2 5 本章 小結 21
參考文獻 21
第3章 深度學習基礎知識 25
3 1 神經網絡基本概念 25
3 1 1 人工神經網絡 25
3 1 2 神經網絡基本特徵 25
3 2 前饋神經網絡 26
3 2 1 人工神經元模型 26
3 2 2 激活函數 26
3 2 3 前饋神經網絡模型結構 29
3 2 4 神經網絡的梯度下降法 30
3 2 5 前饋神經網絡的反向傳播算法 30
3 3 卷積神經網絡 32
3 3 1 概述 32
3 3 2 卷積神經網絡結構 32
3 3 3 卷積神經網絡學習 34
3 3 4 卷積神經網絡應用 34
3 4 循環神經網絡 35
3 4 1 概述 35
3 4 2 循環神經網絡結構 35
3 4 3 循環神經網絡訓練 36
3 4 4 梯度消失和爆炸 37
3 4 5 循環神經網絡變體 38
3 4 6 循環神經網絡應用 39
3 5 本章 小結 40
參考文獻 40
第4章 語言模型與詞向量 41
4 1 統計語言模型 41
4 1 1 語言模型基本概念 41
4 1 2 語言模型參數學習 43
4 1 3 參數的數據平滑 44
4 1 4 語言模型性能評估 45
4 1 5 語言模型應用 46
4 1 6 語言模型變體擴展 47
4 2 神經網絡語言模型 49
4 2 1 神經網絡語言模型概述 49
4 2 2 前饋神經網絡語言模型 50
4 2 3 循環神經網絡語言模型 52
4 2 4 循環神經網絡語言模型變體 54
4 3 淺層詞向量 56
4 3 1 詞表示概述 57
4 3 2
第1詞向量表示模型 60
4 3 3 詞向量特徵及應用 67
4 4 本章 小結 68
參考文獻 68
第5章 自然語言處理中的注意力機制 69
5 1 注意力機制概述 69
5 2 注意力模塊 70
5 2 1 注意力模塊結構 70
5 2 2 模塊訓練與評估 71
5 2 3 注意力模塊相關術語 71
5 3 傳統注意力模塊應用 72
5 4 注意力編碼機制模塊應用 73
5 4 1 單一向量編碼 74
5 4 2 不同序列間的編碼 75
5 4 3 同一序列間的編碼 76
5 5 本章 小結 77
參考文獻 77
第6章 自然語言處理基本任務 78
6 1 文本分類 78
6 1 1 文本分類任務概述 78
6 1 2 神經網絡文本分類方法 78
6 1 3 文本分類評估指標 81
6 2 文本匹配 83
6 2 1 文本匹配任務概述 83
6 2 2 文本匹配方法 83
6 3 序列標注 84
6 3 1 序列標注任務概述 84
6 3 2 神經網絡序列標注方法 85
6 3 3 典型神經網絡序列標注模型 86
6 4 序列生成 88
6 4 1 序列生成任務定義 88
6 4 2 序列生成模型 88
6 4 3 生成式解碼模型 89
6 4 4 選擇式解碼模型 97
6 4 5 選擇-生成混合解碼模型 98
6 4 6 序列生成模型評估指標 100
6 5 本章 小結 101
參考文獻 101
第7章 預訓練語言模型 102
7 1 預訓練語言模型概述 102
7 1 1 預訓練語言模型基本思想 102
7 1 2 預訓練語言模型發展歷程 103
7 2 預訓練語言模型+精調階段(第三範式) 104
7 2 1 編碼器結構:BERT 104
7 2 2 解碼器結構:GPT-1 106
7 2 3 編碼-解碼器結構:BART 107
7 3 預訓練語言模型+提示工程階段(第四範式) 108
7 3 1 提示學習 109
7 3 2 答案工程 110
7 3 3 提示微調策略 111
7 4 大語言模型+提示工程階段(第五範式) 111
7 4 1
第1代大語言模型:快回答 112
7 4 2
第二代大語言模型:慢思考 121
7 5 國產大語言模型傑出代表:DeepSeek-R1 127
7 5 1 DeepSeek-V系列語言模型 128
7 5 2 DeepSeek-R系列推理模型 129
7 6 本章 小結 133
參考文獻 133
第8章 機器翻譯 136
8 1 深度學習機器翻譯概述 136
8 2 典型神經機器翻譯模型 137
8 2 1 RNN編碼-解碼模型 137
8 2 2 基於注意力機制的RNN 編碼-解碼模型 137
8 2 3 谷歌神經機器翻譯系統 138
8 2 4 卷積編碼-解碼模型 138
8 2 5 Transformer模型 139
8 3 神經機器翻譯解碼策略改進 140
8 3 1 推敲網絡 140
8 3 2 非自回歸機器翻譯模型 142
8 3 3 基於隱變量的非自回歸模型 142
8 4 神經機器翻譯系統需要考慮的問題 143
8 4 1 詞表受限問題 144
8 4 2 翻譯覆蓋率問題 144
8 4 3 系統魯棒性問題 145
8 5 低資源神經機器翻譯 146
8 5 1 少量雙語語料和大量單語語料 146
8 5 2 無雙語語料只有單語語料 147
8 6 多語言預訓練語言模型 148
8 6 1 XLM 148
8 6 2 mBART 148
8 7 本章 小結 149
參考文獻 149
第9章 情感分析 151
9 1 情感分析概述 151
9 2 情感極性分類 152
9 2 1 任務定義 152
9 2 2 任務框架 152
9 2 3 技術路線 153
9 3 屬性情感分析 154
9 3 1 任務定義 154
9 3 2 技術路線 154
9 4 本章 小結 157
參考文獻 157
第10章 信息抽取 159
10 1 信息抽取概述 159
10 1 1 基本概念 159
10 1 2 發展歷史 159
10 1 3 任務定義 160
10 2 命名實體識別 160
10 2 1 相關概念 160
10 2 2 簡單命名實體識別 161
10 2 3 複雜命名實體識別 162
10 3 關係抽取 164
10 3 1 任務定義 164
10 3 2 主要方法 164
10 4 事件抽取 166
10 4 1 任務定義 167
10 4 2 任務實現步驟 167
10 4 3 任務實現方法 167
10 4 3 評估 171
10 5 本章 小結 172
參考文獻 172
第11章 機器閱讀理解 173
11 1 機器閱讀理解概述 173
11 2 任務定義 174
11 3 神經機器閱讀理解模型框架 174
11 4 神經機器閱讀理解各類任務及典型模型 176
11 4 1 完形填空式機器閱讀理解任務 176
11 4 2 多項選擇式機器閱讀理解任務 177
11 4 3 片段抽取式機器閱讀理解任務 178
11 4 4 自由生成式機器閱讀理解任務 180
11 5 機器閱讀理解的主要挑戰與開放性問題 182
11 5 1 機器閱讀理解的可解釋性 182
11 5 2 機器閱讀理解的魯棒性 182
11 5 3 機器閱讀理解的長文章 理解能力 182
11 5 4 機器閱讀理解的輸入文本受限 183
11 5 5 機器閱讀理解的推理能力 183
11 5 6 機器閱讀理解的已知知識利用 183
11 5 7 機器閱讀理解的自主利用無標注資源 184
11 5 8 機器閱讀理解的遷移能力 184
11 6 本章 小結 184
參考文獻 184
第12章 對話系統 187
12 1 對話系統概述 187
12 1 1 背景 187
12 1 2 對話系統的特點與分類 187
12 2 開放領域對話 187
12 2 1 基於檢索的開放領域對話系統 188
12 2 2 基於生成的開放領域對話系統 188
12 2 3 檢索-生成融合的開放領域對話系統 189
12 2 4 開放領域對話系統中的關鍵問題 189
12 3 任務型對話 192
12 3 1 基於管道結構的任務型對話系統 192
12 3 2 基於端到端的任務型對話系統 194
12 3 3 任務型對話系統發展趨勢 196
12 4 本章 小結 197
參考文獻 197
精彩書摘
第1章 緒論
1 1人工智能與自然語言處理
1 1 1人工智能
人工智能(artificial intelligence,AI)是引領未來科技發展的核心技術。國際數據公司(International Data Corporation,IDC)近期發佈的多份報告顯示,2024年全球人工智能及生成式人工智能總投資規模為3158億美元,有望在2028年增至8159億美元,其中中國人工智能投資預計突破1000億美元。人工智能已成為全球科技競爭的核心領域。
人工智能的基本目標是構建能夠智能處理任務的系統,使機器能夠像人類一樣執行任務(如學習、推理、規劃和決策等)。這一概念可以追溯到1950年,英國數學家阿蘭 圖靈在其著名論文《計算機器與智能》中提出的圖靈測試:將一個人和一台計算機隔離開,讓提問者與二者進行交流,如果提問者無法區分出哪方是人、哪方是計算機,則表明計算機具備了類似于人的智能。
人工智能系統應具有以下幾個層次的能力。
(1)運算智能:包括記憶和計算能力。
(2)感知智能:包括聽覺、視覺和觸覺的感知能力。
(3)認知智能:包括理解和使用語言、掌握並運用知識,以及基於語言和知識進行推理的能力。
(4)創造智能:在現有條件和想像力的基礎上創作出作品或產品的能力。
隨著計算機視覺、語音處理等技術的快速發展,機器已經具備了感知智能。因此,人工智能研究的重點正逐步從感知智能向認知智能邁進,其中*關鍵的任務是使計算機能夠像人類一樣理解和使用自然語言,並利用其承載的知識進行推理和決策。
1 1 2自然語言處理
自然語言是人類社會發展過程中約定俗成的語言系統,用於溝通和思維的表達,涵蓋了如中文、英語、日語等通過發聲器官產生的聲音來表達的發聲語言,以及手語、旗語等通過手勢、口令、符號等非聲音方式來表達的非發聲語言。自然語言處理(na