Spark大數據分析實務 鄭浩森 張榮 9787115641403 【台灣高等教育出版社】

圖書均為代購,正常情形下,訂後約兩周可抵台。
物品所在地:中國大陸
原出版社:人民郵電
NT$381
商品編號:
供貨狀況: 尚有庫存

此商品參與的優惠活動

加入最愛
商品介紹
*完成訂單後正常情形下約兩周可抵台
*本賣場提供之資訊僅供參考,以到貨標的為正確資訊。
印行年月:202407*若逾兩年請先於私訊洽詢存貨情況,謝謝。
台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。
書名:Spark大數據分析實務
ISBN:9787115641403
出版社:人民郵電
著編譯者:鄭浩森 張榮
頁數:235
所在地:中國大陸 *此為代購商品
書號:1655446
可大量預訂,請先連絡。

內容簡介

本書以Spark大數據分析的常用技術與真實項目相結合的方式,深入淺出地介紹Spark大數據分析的重要內容。全書共8個項目,內容包括廣告流量檢測違規識別流程分析、Spark大數據環境安裝搭建、基於Hive實現廣告流量檢測數據存儲、基於Spark SQL實現廣告流量檢測數據探索分析、基於Spark SQL實現廣告流量檢測數據預處理、基於Spark MLlib實現廣告流量檢測違規識別模型構建與評估、基於Spark開發環境實現廣告流量檢測違規識別,以及基於TipDM大數據挖掘建模平台實現廣告流量檢測違規識別。本書項目2∼項目7都包含知識測試和技能測試,通過練習和操作實踐,讀者可鞏固所學的內容。 本書可以作為大數據分析相關課程的教材,也可以作為數據分析愛好者的自學用書。

目錄

項目1 廣告流量檢測違規識別流程分析
【教學目標】
【思維導圖】
【項目背景】
【項目目標】
【目標分析】
【知識準備】
一、認識大數據
(一)大數據的概念
(二)大數據的特徵
二、認識大數據分析
(一)大數據分析的概念
(二)大數據分析的流程
(三)大數據分析的工具
【項目實施】
任務一 了解正常的廣告投放流程
任務二 了解廣告流量違規現狀
任務三 了解廣告流量常見違規方式
任務四 了解識別虛假流量的常見維度
(一)基本屬性
(二)產品參与度
任務五 廣告流量檢測違規識別流程分析
【項目總結】
項目2 Spark大數據環境安裝搭建
【教學目標】
【思維導圖】
【項目背景】
【項目目標】
【目標分析】
【知識準備】
一、Hadoop大數據框架
(一)Hadoop簡介
(二)Hadoop的發展歷程
(三)Hadoop的特點
(四)Hadoop生態系統
(五)Hadoop的應用場景
二、Hive數據倉庫工具
(一)Hive簡介
(二)Hive的特點
(三)Hive的應用場景
(四)Hive與關係資料庫的區別
三、Spark分散式計算框架
(一)Spark簡介
(二)Spark的發展歷程
(三)Spark的特點
(四)Spark生態系統
(五)Spark的應用場景
【項目實施】
任務一 安裝搭建Hadoop集群
(一)創建Linux虛擬機
(二)設置固定IP地址
(三)遠程連接虛擬機
(四)配置本地yum源及安裝常用軟體
(五)在Linux系統下安裝Java
(六)修改配置文件
(七)克隆虛擬機
(八)配置SSH免密登錄
(九)配置時間同步服務
(十)添加地址映射
(十一)啟動關閉集群
任務二 安裝搭建Hive
(一)安裝MySQL
(二)下載和安裝Hive
(三)修改Hive配置文件
(四)設置環境變數
(五)初始化元資料庫與啟動Hive
任務三 安裝搭建Spark集群
(一)解壓並配置Spark集群
(二)啟動Spark集群
(三)查看Spark監控服務
【項目總結】
【技能拓展】
【知識測試】
【技能測試】
測試 修改master虛擬機的IP地址
項目3 基於Hive實現廣告流量檢測數據存儲
【教學目標】
【思維導圖】
【項目背景】
【項目目標】
【目標分析】
【知識準備】
一、了解Hive中的數據類型
二、創建與管理資料庫
(一)創建資料庫語法格式
(二)刪除資料庫語法格式
(三)更改資料庫語法格式
(四)使用資料庫語法格式
三、創建表
(一)創建內部表
(二)創建外部表
(三)創建分區表
(四)創建桶表
四、修改表
五、導入數據至Hive表
(一)將文件系統中的數據導入Hive表
(二)通過查詢語句向表中插入數據
六、導出Hive表中的數據
(一)將Hive表中的數據導出至本地文件系統
(二)將Hive表中的數據導出至HDFS
【項目實施】
任務一 創建數據表
(一)數據欄位說明
(二)創建Hive表
任務二 導入數據至Hive表
【項目總結】
【技能拓展】
【知識測試】
【技能測試】
測試 某連鎖咖啡店經營情況數據存儲
項目4 基於Spark SQL實現廣告流量檢測數據探索分析
【教學目標】
【思維導圖】
【項目背景】
【項目目標】
【目標分析】
【知識準備】
一、認識Spark SQL框架
(一)Spark SQL簡介
(二)配置Spark SQL CLI
(三)Spark SQL與Shell交互
二、創建DataFrame對象
(一)通過結構化數據文件創建DataFrame
(二)通過外部資料庫創建DataFrame
(三)通過RDD創建DataFrame
(四)通過Hive表創建DataFrame
三、查看DataFrame數據
(一)printSchema():輸出數據模式
(二)show():查看數據
(三)first()、head()、take()、takeAsList():獲取若干行記錄
四、掌握DataFrame行列表查詢操作
(一)條件查詢
(二)查詢指定欄位的數據信息
(三)查詢指定行數的數據
(四)排序查詢
(五)分組查詢
【項目實施】
任務一 讀取數據創建DataFrame對象
任務二 簡單查詢DataFrame數據
(一)查詢數據記錄數
(二)查詢數據缺失值
任務三 探索分析日流量特徵
任務四 探索分析IP地址的訪問次數特徵
任務五 探索分析虛假流量數據特徵
【項目總結】
【技能拓展】
【知識測試】
【技能測試】
測試1 使用DataFrame查詢操作分析員工基本信息
詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。
規格說明
運送方式
已加入購物車
已更新購物車
網路異常,請重新整理