*數量非實際在台庫存 *完成訂單後正常情形下約兩周可抵台。 *本賣場提供之資訊僅供參考,以到貨標的為實際資訊。 印行年月:202401*若逾兩年請先於私訊洽詢存貨情況,謝謝。 台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。 書名:大數據工程項目開發實戰活頁式教程 ISBN:9787121468001 出版社:電子工業 著編譯者:王倩 頁數:260 所在地:中國大陸 *此為代購商品 書號:1603640 可大量預訂,請先連絡。 內容簡介 本書圍繞Hadoop生態圈相關組件系統介紹大數據架構平台上的案例開發。全書共7章,其中,第1、2章介紹了數據流、數據平台及如何搭建Hadoop集群;第3、4章介紹了分散式文件系統HDFS、分散式計算框架MapReduce、YARN及數據倉庫Hive的架構優化;第5章介紹了Hadoop生態圈的相關輔助系統,包含Flume、Kafka、Sqoop:第6章介紹了Spark架構及相關核心組件;第7章介紹了離線綜合案例的開發,目的是讓用戶能夠利用Hadoop的相關組件進行項目的開發,加深對Hadoop生態圈技術的理解,同時通過大數據平台項目實戰,讓用戶了解大數據平台分析數據的應用。 本書既可以作為高等職業院校、應用型本科院校計算機相關專業、信息系統相關專業、數據科學相關專業的大數據平台課程教材,又可以作為一線技術人員的操作參考教材。目錄 第1章 數據1 1 數據流與大數據 1 1 1 數據產生 1 1 2 數據採集 1 1 3 數據存儲和管理 1 2 數據平台與技術 1 2 1 離線數據平台的相關技術 1 2 2 實時數據平台的相關技術 習題1 上機實驗1 大數據架構和組件選型 第2章 搭建大數據集群環境 2 1 集群環境安裝準備 2 1 1 學習任務:創建虛擬機 2 1 2 啟動虛擬機並安裝Linux操作系統 2 1 3 克隆虛擬機 2 1 4 Linux操作系統網路配置 2 1 5 SSH操作配置 2 2 安裝JDK 2 3 ZooKeeper集群部署 2 3 1 ZooKeeper集群的安裝與配置 2 3 2 ZooKeeper集群的啟動與關閉 2 4 Hadoop集群部署 2 4 1 Hadoop高可用集群規劃 2 4 2 安裝Hadoop 2 4 3 Hadoop高可用集群配置 2 4 4 啟用Hadoop高可用集群 習題2 上機實驗2 VMware Workstation的安裝和使用 第3章 Hadoop核心組件原理與實踐 3 1 分散式文件系統HDFS的認識與操作 3 1 1 HDFS體繫結構的認識 3 1 2 HDFS Shell操作 3 1 3 HDFS API操作 3 2 分散式計算框架MapReduce的認識與操作 3 2 1 MapReduce的認識 3 2 2 MapReduce編程模型 3 2 3 MapReduce WordCount編程實例 3 3 YARN與Hadoop新特性的認識 3 3 1 Hadoop2 0的認識 3 3 2 YARN體繫結構的認識 3 3 3 YARN工作流程的認識 習題3 上機實驗3 最高氣溫統計案例 第4章 數據倉庫Hive應用實踐 4 1 離線大數據處理技術Hive 4 1 1 Hive出現背景 4 1 2 Hive功能描述 4 1 3 Hive基本架構 4 1 4 Hive數據存儲 4 1 5 Hive環境部署 4 2 Hive SQL 4 2 1 Hive關鍵概念 4 2 2 Hive資料庫 4 2 3 Hive表DDL和DML 4 3 Hive SQL查詢語句 4 3 1 select語句 4 3 2 group by語句 4 3 3 join語句 4 3 4 Hive內置函數 4 3 5 其他技術 4 4 數據傾斜 4 4 1 產生原因 4 4 2 數據傾斜的表現 4 4 3 Hive優化 4 5 join無關的優化 4 5 1 group by引起的數據傾斜優化 4 5 2 count distinct優化 4 6 Hive用戶自定義函數介面 4 6 1 概述 4 6 2 UDF概述 4 6 3 需求分析 4 6 4 UDF使用 4 7 綜合案例—Olist巴西電子商務網站數據分析 4 7 1 案例背景描述 4 7 2 案例數據模型 4 7 3 案例任務描述 4 7 4 數據採集 4 7 5 數據清洗和聚合 4 7 6 數據分析 4 7 7 案例總結 習題4 上機實驗4 Hive離線數據統計案例 第5章 離線處理輔助系統 5 1 Flume日誌採集 5 1 1 Flume簡介 5 1 2 Flume日誌採集系統結構 5 1 3 Flume安裝配置 5 1 4 Flume負載均衡 5 1 5 綜合案例—Flume多數據源分類採集 5 2 Kafka消息訂閱 5 2 1 Kafka簡介 5 2 2 Kafka核心組件介紹 5 2 3 Kafka工作流程分析 5 2 4 安裝Kafka 5 2 5 Kafka的命令行使用方式 5 3 Sqoop數據遷移 5 3 1 Sqoop簡介 5 3 2 Sqoop的作用 5 3 3 Sqoop的安裝 5 3 4 導入MySQL數據到HDFS 5 3 5 導出HDFS數據到MySQL 5 3 6 案例一 5 3 7 案例二 習題5 上機實驗5 離線處理組件的安裝配置 第6章 Spark流計算開發實踐 6 1 Spark概述 6 1 1 Spark優點 6 1 2 Spark生態系統 6 1 3 Spark環境部署 6 2 SparkCore 6 2 1 RDD概述 6 2 2 RDD Transformation 6 2 3 RDD Action 6 2 4 RDD依賴 6 2 5 RDD緩存 6 2 6 Spark運行架構 6 2 7 Checkpoint 6 2 8 基於RDD的Spark編程 6 3 Spark SQL 6 3 1 Spark SQL概述 6 3 2 Spark SQL編程 6 3 3 Spark SQL外部數據源操作 6 4 Spark Streaming 6 4 1 Spark Streaming流處理框架概述 6 4 2 Spark Streaming核心概念 6 4 3 Spark Streaming編程 6 4 4 Spark Streaming整合Flume 6 4 5 Spark Streaming整合Kafka的兩種方式 6 5 綜合案例—Spark城市旅遊熱力圖 習題6 上機實驗6 詞頻統計 第7章 大數據平台項目實戰 7 1 項目介紹 7 2 項目架構設計及技術選型 7 3 數據採集 7 3 1 準備數據採集開發環境 7 3 2 分析網頁數據結構 7 4 數據預處理 7 4 1 網頁數據深度分析 7 4 2 把數據上傳到HDFS集群中 7 5 數據分析 7 5 1 建立數據倉庫 7 5 2 薪資區間分佈分析 7 5 3 公司福利標籤詞頻分析 7 5 4 職位技能需求詞頻統計 7 5 5 城市詞頻統計 7 6 數據導出 7 6 1 Sqoop安裝 7 6 2 Sqoop配置 7 6 3 詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。 |