目錄
目錄
第1章 緒論 1
1 1 數據治理概述 1
1 1 1 數據的概念 1
1 1 2 數據治理的內涵與目標 7
1 2 認知安全概述 11
1 2 1 認知的概念 11
1 2 2 認知安全的內涵 13
1 3 從數據治理到認知安全 15
1 3 1 數據治理支撐認知安全 15
1 3 2 認知安全促進數據治理 16
1 3 3 大模型時代的數據治理與認知安全 16
1 4 本章 小結 17
1 5 習題 18
第2章 數據治理體系 19
2 1 數據治理標準 19
2 1 1 數據質量標準 19
2 1 2 數據安全標準 20
2 1 3 數據共享與交換標準 22
2 2 數據治理框架 23
2 2 1 數據治理的主體 23
2 2 2 數據治理的目標 25
2 2 3 數據治理的對象 27
2 2 4 數據治理的手段 28
2 2 5 數據治理的過程 31
2 3 數據治理制度 32
2 3 1 集中式數據治理 32
2 3 2 分散式數據治理 33
2 3 3 混合式數據治理 34
2 4 數據治理平臺 36
2 4 1 平臺架構 36
2 4 2 平臺功能 38
2 4 3 案例分析 39
2 5 本章 小結 41
2 6 習題 42
第3章 數據處理 43
3 1 數據采集 43
3 1 1 自動採集 43
3 1 2 人工採集 44
3 2 數據清洗 45
3 2 1 數據問題 45
3 2 2 清洗方法 46
3 3 數據集成 51
3 3 1 數據提取 52
3 3 2 數據轉換 53
3 3 3 數據加載 55
3 4 數據標注 56
3 4 1 手動標注 57
3 4 2 半自動標注 58
3 4 3 自動標注 58
3 5 數據增強 59
3 5 1 增強方法 60
3 5 2 增強策略 67
3 6 數據分析 70
3 6 1 統計學角度 70
3 6 2 決策進程角度 71
3 6 3 數據可視化 73
3 7 本章 小結 75
3 8 習題 75
第4章 數據合規 76
4 1 法律法規和標準規範 76
4 1 1 法律法規 76
4 1 2 標準規範 83
4 2 數據安全風險評估 85
4 2 1 數據安全風險類型 85
4 2 2 數據生命週期中的風險 86
4 2 3 風險評估方法 87
4 3 數據隱私保護 89
4 3 1 數據隱私保護的作用 89
4 3 2 數據隱私保護技術發展歷程 90
4 3 3 數據隱私保護技術及其應用 91
4 4 監督與審計 94
4 4 1 監督與審計方案制定 94
4 4 2 數據合規監督手段 95
4 4 3 審計分析與持續優化 96
4 4 4 響應與應急處理 96
4 5 本章 小結 97
4 6 習題 97
第5章 數據建模 99
5 1 機器學習 99
5 1 1 基本概念 99
5 1 2 學習範式 100
5 1 3 損失函數與優化算法 105
5 1 4 正則化和標準化 107
5 2 深度學習 108
5 2 1 深度學習基礎 109
5 2 2 卷積神經網絡 113
5 2 3 循環神經網絡 118
5 2 4 深度生成模型 121
5 3 大語言模型 124
5 3 1 大語言模型基礎 124
5 3 2 預訓練 126
5 3 3 指令微調 127
5 3 4 基於人類反饋的強化學習 129
5 4 多模態大語言模型 132
5 4 1 模型架構設計 132
5 4 2 模型訓練與微調 133
5 5 本章 小結 134
5 6 習題 134
第6章 認知安全威脅 136
6 1 數據安全威脅 136
6 1 1 數據投毒攻擊 137
6 1 2 數據對抗攻擊 141
6 1 3 數據偽造攻擊 144
6 1 4 數據隱私攻擊 147
6 1 5 數據竊取攻擊 151
6 2 模型安全威脅 153
6 2 1 模型擾動攻擊 154
6 2 2 模型拓展攻擊 156
6 2 3 方程求解攻擊 159
6 2 4 替代模型攻擊 160
6 2 5 元模型攻擊 161
6 3 本章 小結 164
6 4 習題 164
第7章 認知安全防禦 166
7 1 數據安全防禦 166
7 1 1 偽造與篡改數據檢測 166
7 1 2 差分隱私 170
7 1 3 同態加密 173
7 1 4 聯邦學習 178
7 2 模型安全防禦 180
7 2 1 針對對抗樣本攻擊的防禦 180
7 2 2 模型遺忘 190
7 2 3 針對模型竊取的防禦 192
7 3 本章 小結 194
7 4 習題 195
參考文獻 196
附錄 常用符號表 202
精彩書摘
第1章 緒論
數字經濟,作為一種新興的經濟發展模式,正在全球範圍內迅速崛起,成為推動經濟發展的新引擎。這種新的經濟模式以數據為生產要素,滲透到各行各業,引領傳統行業轉型升級,還催生了許多基於數據的新興經濟活動,如在線市場、數字支付、共享經濟等,開闢了全新的商業模式和市場空間,為全球經濟帶來了新的增長點。
在數字經濟時代,面對數據來源的多樣化和數據規模的爆炸式增長,數據的真實性、準確性、可靠性和安全性等方面存在著諸多問題,數據質量高低已直接影響到數字經濟發展的速度和質量。因此,全社會應高度重視數據治理與認知安全,瞭解數據治理與認知安全方面的知識,這對數字社會平穩發展具有十分重要的現實意義。
數據治理構建了認知安全所需的堅實數據基礎,認知安全則進一步促進數據治理方法的創新與發展。數據治理與認知安全相互作用,為應對數字經濟時代安全挑戰、促進社會和諧發展提供了技術支撐。
1 1數據治理概述
當今,數據被認為是”新的石油”,具有巨大的經濟價值和戰略意義。然而,數據質量就像是一桶石油的品質。如果數據質量不高,則容易產生誤導性決策、極低的信任度、合規風險等諸多問題。因此,本節 將圍繞數據治理這一主題,從數據的概念定義入手,闡述數據治理的內涵及目標,為數據要素價值釋放築牢根基。
1 1 1數據的概念
1 數據的定義及分類
數據,簡而言之,是指對現實世界中的事件和活動的符號記錄。根據國際數據管理協會(Data Management Association,DAMA)[1]的定義,數據可以用文字、數值、圖表、圖片、音頻和視頻等多種方式來描述現實情況。《辭海》第七版[2]把數據定義為以數字、字符、圖像和聲音等形式表現的信息。《中華人民共和國數據安全法》[3]則定義數據為以電子或任何其他方式記錄的信息。這些定義共同指出了數據的多樣化特性,即數據能夠以多種形式存在。
數據的發展與人類歷史緊密相連,並在人類社會發展過程中扮演著重要的角色。傳統的數據主要表現為有組織和規則化的集合,如我國古代的戶籍冊子和天文觀測記錄,這些以特定格式登記和編纂的記錄詳細描述了社會與自然界的各種屬性和相互作用。隨著計算機的誕生,數據開始與計算機編碼緊密關聯,任何可以轉化為0和1的二進制形式的記錄都變成了計算機能夠處理的對象。進入21世紀,數據的發展已經成為全球性的趨勢,特別是大數據、人工智能和物聯網等技術的發展,使得數據分析利用和價值挖掘能力得到了空前的提升,數據已經成為驅動經濟發展和創新的重要力量,對人類社會生產力發展等多個方面產生了深遠影響。
然而,隨著數據規模的爆炸性增長,高效管理和充分利用這些數據成為一個重要課題。數據分類作為數據管理的基本手段,對提高數據利用效率、促進數據分析和決策具有重要意義。數據分類將數據按照一定的標準或特徵劃分為不同類別。通過有效分類,數據使用者能夠快速定位出關鍵數據,簡化數據檢索過程,優化存儲效率,同時提高數據分析的準確性。數據分類可以基於多種維度,如數據性質、結構化程度、使用頻率和處理方式等。
1)按照數據性質分類
數據可被分為定量數據和定性數據。定量數據是指能夠通過數值來量化的數據,適合進行數學計算和統計分析,主要用於量化比較和預測模型的構建。定量數據可進一步分為離散數據(如計數值、年齡)和連續數據(如身高、體重)。定性數據是指那些不能通過數值來表示的數據,而是用文字、符號或類別來描述事物的屬性、特徵、關係等,是對客觀世界的一種質性描述,如一個人的性別、民族、教育水平,一家公司的經營策略、文化氛圍,一個國家的政治制度、文化傳統等。定性數據可進一步分為名義數據和序數數據,名義數據反映了無序類別(如性別),而序數數據則代表了有序類別(如考核評級)。這種按數據性質分類的方法,不僅為數據分析提供了清晰路徑,還能夠確保分析方法的適當性和準確性。
2)按照結構化程度分類
數據可被分為結構化數據、半結構化數據和非結構化數據。結構化數據是指按照預定義格式組織存儲的數據,通常存儲在關係數據庫中。半結構化數據是介於結構化數據和非結構化數據之間的一種數據類型。它具有某種結構,但格式不一致,字段可能不完全規範,同時也可能包含一些非結構化的元素。非結構化數據是指沒有明確定義的數據模型或結構,通常以自然語言、圖像、音頻或視頻等形式存在,不能用表格或關係數據庫記錄。
結構化數據特徵明顯,擁有明確的數據模型,以下是一個具體的結構化數據實例:一家電商公司的客戶數據庫中,每一行代表一個客戶,包含諸如客戶的姓名、性別、年齡、聯繫方式、地理位置、消費偏好等字段,這些字段嚴格按照預定義的結構排列,便於進行客戶細分、市場分析和個性化第1等,如表1-1所示。
半結構化數據雖不具有固定的結構,但仍包含標簽或其他標記來分隔語義元素,並使數據的組成部分具有可識別性。以下是一些半結構化數據的典型例子。
HTML文檔:網頁源代碼是一種典型的半結構化數據,其中包含HTML標簽(如、、、
等)來界定頁面各部分的功能和層級關係。儘管文本內容本身是非結構化的,但通過解析HTML標簽,可以輕鬆抽取標題、段落、鏈接等結構化信息,供搜索引擎索引、網頁抓取或內容分析使用。
下面是一個HTML文檔抽取信息示例:
Simple HTML Page
Hello,World!
This is a very simple HTML page
其中,聲明這是個HTML文檔;聲明使用英文;標簽內包含了所有頭部元素,如元數據、標題、樣式錶鏈接等;標簽定義了頁面主體,如文字、背景顏色、外邊距等樣式;標簽定義了頁面的標題,在瀏覽器標簽上顯示;標簽定義了一個大標題;
標簽定義了一個段落。在配置文件、科研文獻元數據等領域廣泛應用的XML(eXtensible markup language)格式,通過自定義標簽描述數據元素及其關係。例如,一份科研論文的XML元數據可能包含、、、等標簽,雖然具體內容無固定結構,但標簽的存在使得機器能準確識別並提取關鍵信息。
非結構化數據沒有預定義數據模型,它不適合在傳統關係數據庫中存儲。例如,文本文檔,如報告、論文、小說等,其內容由自由格式的文本、圖片、表格等元素構成,缺乏固定的數據結構;又如,視頻和音頻等視聽媒體數據包含複雜的時空信息和感知內容,分析這些非結構化數據需要運用計算機視覺、語音識別、情感分析等技術,以提取有用信息;再如,微博、X(原名推特)等平臺上用戶發佈的社交媒體帖子,包含文字、圖片、鏈接、表情、位置信息等多模態的非結構化信息。
在整個數據生態中,三種數據類型共同構成了數據存儲、處理和分析的基礎,它們各自的特性決定了各自在不同場景下的優勢和適用性,如表1-2所示。
3)按照使用頻率分類
數據可被分為熱數據、溫數據和冷數據。熱數據是指被頻繁訪問和操作的數據,通常是操作和決策過程中*活躍的數據部分