內容簡介
本書旨在説明資料行業的從業者在 AI 時代提升資料管理和資料技術認知水準,內容覆蓋資料價值創造的理論、技術和實踐。
本書共 8 章 。第 1 章 回顧企業資料的發展歷史,並講解現代企業資料組織。第 2 章 從多維度解析資料價值的創造路徑,包括從構建數位化決策、加速業務創新和推動 AI 變革等視角介紹資料價值創造的方法和成果。第 3 章 系統講解資料管理的方法與技術,包括資料資產管理、資料資產運營、資料平臺架構的規劃及實踐案例。第 4 章 講解資料要素價值化的路徑探索,包括資料要素在多行業的應用、基礎體系、可信資料流程通技術及資料資產入表。第 5 章 講解資料底座的技術與實踐,包括資料底座的架構要求、分散式存儲技術、分散式運算技術等,以及多種架構介紹。第 6 章 講解資料與 AI 的融合,包括推薦系統、基於 LLM 的資料治理分析、資料標注等。第 7 章 介紹企業 AI 應用的方法論與知識融合。第 8 章 是資料領域技術趨勢與思考,包括資料技術的自主可控、開源技術的發展與挑戰、資料中台的發展歷程與思考、資料編織技術的原理與展望。
本書適合對大資料技術、資料管理、資料價值、資料與 AI 融合及相關技術感興趣的讀者閱讀,尤其適合從事大資料相關工作或旨在推動企業數位化轉型的讀者閱讀。
作者簡介
劉汪根,現任星環科技副總裁、聯合創始人,CCF大資料專家委員會和資料治理發展委員會執行委員。幫助星環打造了一系列自主可控、技術領先的大資料基礎軟體產品,成為全球首個通過國際基準測試TPC-DS認證的公司。
王志軍,中國聯通軟體研究院副院長,首席安全官。致力於大資料、雲計算、AI及企業資訊化領域研究,是通信行業大資料平臺建設的開拓者,曾幫助運營商率先實現全網資料集約化、百PB級資料集中高效處理。
陳果,企業知識開源計畫創始人兼首席佈道師,波士頓諮詢公司前董事總經理,IBM諮詢前全球執行合夥人。在管理諮詢和IT諮詢行業擁有24年從業經驗,為消費品和零售、高科技、冶金和化工、汽車和機械、物流、銀行、保險等行業的100多家企業提供過諮詢服務。
目錄
第 1章 數位化與資訊化
1 1 資料與資訊 1
1 2 資料處理的起源 2
1 3 數位化的資料處理 3
1 3 1 從機械化到數位化 4
1 3 2 從資料處理到資訊系統 7
1 3 3 面向記錄事務的資料管理 9
1 4 資料管理與分析 12
1 5 商業智慧與資料科學 14
1 6 數據視覺化 16
1 7 現代企業資料組織 19
1 7 1 數據工程師 20
1 7 2 資料分析師 21
1 7 3 資料科學家 22
1 7 4 資料管理人員 23
第 2章 資料價值的創造路徑
2 1 資料分析創造價值 24
2 1 1 企業資料價值創造的階段化路徑 24
2 1 2 國內數位化的行業觀察 27
2 2 資料價值:數位化決策 30
2 2 1 運營管理的數位化 30
2 2 2 風險管理的數位化 32
2 2 3 行銷獲客的數位化 34
2 3 資料價值:業務創新 37
2 3 1 線下業務轉線上 37
2 3 2 監管的數位化 39
2 4 資料價值:推動AI變革 42
2 4 1 ImageNet 42
2 4 2 數字療法 43
2 5 資料價值創造的組織保障 44
2 5 1 資料管理團隊能力建設 47
2 5 2 資料產品團隊能力建設 48
2 5 3 資料底座團隊能力建設 49
第3章 資料管理的方法與技術
3 1 資料資產管理 51
3 1 1 資料模型管理 52
3 1 2 資料標準管理 55
3 1 3 資料品質管理 57
3 1 4 主資料管理 59
3 1 5 中繼資料管理 61
3 1 6 資料安全管理 63
3 1 7 資料資產管理平臺 65
3 2 數據資產運營 69
3 2 1 數據視覺化 69
3 2 2 商業智慧 71
3 2 3 數據洞察 73
3 2 4 資料標籤 74
3 2 5 資料指標 76
3 2 6 數據資產盤點與編目 77
3 2 7 資料資產運營平臺 80
3 3 資料平臺架構 82
3 3 1 資料倉庫 82
3 3 2 數據湖 86
3 3 3 資料集市 89
3 3 4 數據中台 90
3 4 中國聯通的資料運營體系 93
3 4 1 資料運營體系的建設由來 93
3 4 2 資料運營的規範統一 94
3 4 3 統一工具支撐”一體化運營” 94
3 4 4 “一套資料管理體系”
保障資料供給 95
第4章 資料要素價值化的路徑探索
4 1 數據要素:資料價值的產業化 98
4 1 1 資料要素×醫療健康 98
4 1 2 資料要素×金融服務 101
4 1 3 資料要素×智慧農業 103
4 1 4 資料要素×氣象服務 104
4 2 資料要素的基礎體系 106
4 2 1 資料基礎設施 106
4 2 2 資料基礎制度 108
4 3 可信資料流程通技術 110
4 3 1 資料空間 110
4 3 2 其他技術路徑 115
4 4 數據資產入表 118
4 4 1 資料資產的確認 118
4 4 2 資料資產的會計計量 120
4 4 3 資料資源入表管理平臺 121
第5章 資料底座的技術與實踐
5 1 資料底座的架構要求 124
5 1 1 資料底座的能力要求 124
5 1 2 資料底座的核心功能 126
5 2 分散式存儲技術 128
5 2 1 分散式檔存儲HDFS 130
5 2 2 物件存儲Ceph 131
5 2 3 寬表存儲HBase 132
5 2 4 文檔搜尋引擎Elasticsearch 135
5 3 分散式運算技術 137
5 3 1 MapReduce 140
5 3 2 Spark 142
5 3 3 Presto 145
5 4 分散式資源管理技術 147
5 5 分析型資料庫 151
5 5 1 MPP資料庫 152
5 5 2 分散式分析型資料庫 155
5 5 3 分析型資料庫的評價 158
5 6 資料聯邦 162
5 7 湖倉一體架構 165
5 7 1 Hudi 166
5 7 2 Iceberg 168
5 7 3 Delta Lake 171
5 8 流批一體架構 172
5 8 1 Lambda架構 173
5 8 2 Kappa架構 174
5 8 3 Flink 176
5 9 存算分離架構 177
5 9 1 基於雲存儲的存算分離 179
5 9 2 基於本機存放區的存算分離 180
5 10 中國聯通集團的資料底座建設 183
5 10 1 大資料技術架構 183
5 10 2 資料平臺架構 188
第6章 資料與AI的融合
6 1 推薦系統 191
6 1 1 協同過濾 192
6 1 2 內容過濾 193
6 1 3 基於向量的近鄰召回的推薦系統 193
6 1 4 基於點擊率預估模型的推薦系統 194
6 2 基於LLM的資料治理與分析 195
6 2 1 智慧化資料治理 195
6 2 2 基於LLM的資料分析 199
6 3 數據標注 200
6 4 向量資料庫 202
6 4 1 特徵與向量 203
6 4 2 相似度的度量 204
6 4 3 向量檢索的召回率與準確率 205
6 4 4 向量檢索與索引技術 206
6 5 知識圖譜 211
6 5 1 知識的表示方法 212
6 5 2 知識抽取與推理技術 213
6 5 3 知識存儲與圖模型 215
6 5 4 圖資料庫與圖計算技術 216
6 6 AI資料安全的挑戰與防護技術 217
6 6 1 對抗樣本攻擊與防禦 218
6 6 2 資料投毒攻擊與防禦 219
6 6 3 後門攻擊與防禦 220
6 6 4 預訓練大模型的資料風險 221
第7章 企業AI應用的方法論與知識融合
7 1 通用模型、推理模型與智慧體 223
7 1 1 通用模型 223
7 1 2 推理模型 224
7 1 3 智能體 224
7 1 4 典型案例:DeepSeek大模型 226
7 2 企業AI應用落地方法論 227
7 2 1 企業AI應用落地條件 227
7 2 2 企業AI落地場景 228
7 2 3 企業AI場景實踐案例 229
7 3 大模型與企業知識融合 229
7 3 1 大模型資料調優難題:Demo與上線的差距 229
7 3 2 LLM的知識機制 230
7 3 3 企業AI應用的基礎設施只需要DeepSeek嗎 231
7 4 知識工程中的大模型應用 233
7 4 1 大模型參數差異與NER任務的影響 233
7 4 2 知識增強對實體識別的優化 234
7 4 3 易混淆知識的識別策略 236
7 4 4 知識長度與識別準確率的關係 238
7 4 5 推理能力對大模型識別效果的影響 240
7 4 6 大模型驅動的知識工程流水線 242
第8章 資料領域技術趨勢與思考
8 1 資料技術的自主可控 245
8 2 開源技術的發展與挑戰 247
8 3 資料中台的發展歷程與思考 251
8 4 資料編織技術的原理與展望 253
詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於客服中心或Line或本社留言板留言,我們即儘速上架。