內容簡介
隨著互聯網的發展,大數據的思想與技術已經逐漸滲入人們生活、工作的方方面面。本書突出「大數據分析」這一主題,從大數據分析原理、技術和應用的角度,講述大數據分析基礎知識、大數據分析平台核心原理、大數據分析關鍵技術及大數據分析應用。 大數據分析的基礎知識主要包括大數據的產生背景與定義、大數據的特點和技術、大數據的應用和價值、大數據時代的思維變革、國家大數據戰略;大數據分析平台的核心原理主要包括開源大數據平台Hadoop和Spark的發展、生態系統、體繫結構、安裝和使用方法等,大數據存儲(Hadoop分散式文件系統——HDFS的基本原理),大數據處理(MapReduce并行編程模型、Hadoop2 0的資源管理調度框架——YARN);大數據分析的關鍵技術主要包括大數據的獲取、數據清洗、數據歸約、數據標準化、大數據分析演算法(包括聚類、分類演算法)的應用;大數據分析的應用是以案例的形式給出大數據分析在上市公司信用風險預測研究中的實際應用。 本書能培養學生搭建大數據分析平台的工程技術能力,面向大規模、多類型數據集的分析及處理能力,基於大數據思維方式進行數據分析的能力,將大數據技術與實際財經應用問題相結合併實現快速決策分析的能力,同時培養學生科技報國的家國情懷和使命擔當。 本書適合作為高等院校各專業(尤其是大數據相關專業、財經類專業)大數據分析相關課程的教材,也可供相關技術人員參考。目錄
第1章 大數據的概述