內容簡介
本書圍繞大數據技術的基本原理與實踐,介紹了大數據獲取、存儲、分析,以及數據挖掘和機器學習技術,內容涵蓋Hadoop、MapReduce、關聯規則、大規模監督機器學習、數據流、集群、NoSQL系統(Pig、Hive)等。 本書共分9章。第1章概括介紹了大數據的發展歷史、定義、生命周期等。第2章介紹了Python編程基礎,包括基本數據類型、基本控制流程、Python的面向對象機制,以及NumpY、Scipyr、Pandas、Matplotlib數據分析庫等。第3章介紹了大數據技術基礎與軟硬體設施、大數據存儲與管理技術、大數據的分散式處理平台等內容。第4章主要介紹了大數據分析的理論與方法,如機器學習基礎、機器學習要解決的問題及評價方法、并行機器學習演算法等。第5章介紹了大數據分析技術,包括MapReduce編程基礎、基於Storm的流數據分析、文本大數據分析與處理、大數據關聯分析、相似項的發現、基於大數據的推薦技術等內容。第6章主要介紹了大數據流式處理的基本原理、流式處理模型、流式處理引擎Apache Spark和Apache Flink。第7章介紹了基於大數據的深度學習技術與應用,包括深度學習基本原理、深度學習典型應用、Keras基礎入門以及相應的應用案例。第8章介紹了大數據安全與隱私保護理論、關鍵技術及大數據安全與隱私保護展望等。第9章主要是進行經典大數據案例的分析。此外,本書還提供了部分案例的數據集和代碼,可通過微信端掃描書中二維碼下載。 本書內容深入淺出,可作為數據科學與技術、人工智能、計算機科學、製造科學、機械工程等學科相關專業的本科生、研究生的教材或課程教學參考書,對工程技術人員、科研人員而言也是非常實用的工具書。目錄
第1章 大數據技術概覽