*完成訂單後正常情形下約兩周可抵台。 *本賣場提供之資訊僅供參考,以到貨標的為正確資訊。 印行年月:202312*若逾兩年請先於私訊洽詢存貨情況,謝謝。 台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。 書名:PySpark大數據分析實戰 ISBN:9787111739593 出版社:機械工業 著編譯者:伍鮮 常麗娟 叢書名:大數據科學叢書 頁數:372 所在地:中國大陸 *此為代購商品 書號:1598341 可大量預訂,請先連絡。 內容簡介 本書是PySpark大數據分析的入門讀物,適合有一定Python基礎的讀者學習使用。本書基於最新版本的PySpark 3 4 x編寫,全書共11章,系統地介紹了PySpark大數據分析的方法和技巧,內容涵蓋了大數據的相關技術、PySpark的基本概念、Spark環境搭建、數據分析的基本概念及相關工具、開發工具的選擇、Spark核心編程和Spark SQL操作等基礎知識和核心技術,以及Spark流式數據處理、Spark機器學習庫MLlib和基於協同過濾的圖書推薦系統等高級主題。本書通過多個實戰案例,帶領讀者掌握使用Python和Spark進行大數據分析的方法和技巧,從而提高讀者的數據處理能力和業務價值。 本書內容全面、示例豐富、講解清晰,讀者可以直接應用書中的案例。本書適合自學,也可作為計算機、軟體工程、數據科學與大數據等專業的教學參考書,用於指導大數據分析編程實踐,還可供相關技術人員參考。作者簡介 伍鮮,就職于中電金信軟體有限公司,擔任高級軟體工程師。擁有多年金融領域大數據處理實戰經驗,曾負責多家銀行的Teradata數據倉庫、FusionInsight大數據集群、阿里雲大數據倉庫、智能營銷客戶集市和客戶中心建設。 熱衷於各種主流技術,對大數據技術棧Hadoop、Hive、Spark、Kafka等有深入研究。熱愛數據科學、機器學習、雲計算、人工智慧通過了微軟Azure開發人員、Azure數據工程師Azure解決方案架構師專家認證,對Databricks的使用有豐富的經驗。目錄 前言第1章 初識PySpark 1 1 關於數據 1 2 了解Hadoop 1 2 1 分散式文件系統HDFS 1 2 2 分散式計算框架MapReduce 1 2 3 資源調度管理框架YARN 1 3 了解Hive 1 4 了解Spark 1 4 1 Spark是什麼 1 4 2 Spark的發展歷程 1 4 3 Spark的特點 1 4 4 Spark的生態系統 1 4 5 Spark的部署模式 1 4 6 Spark的運行架構 1 5 PySpark庫介紹 1 6 本章小結 第2章 Spark環境搭建 2 1 安裝環境準備 2 1 1 操作系統準備 2 1 2 Java環境準備 2 1 3 Python環境準備 2 1 4 Spark安裝包下載 2 1 5 Hadoop安裝包下載 2 2 Spark本地模式安裝 2 2 1 使用互動式pyspark運行代碼 2 2 2 寬窄依賴和階段劃分 2 2 3 使用spark-submit提交代碼 2 3 Spark獨立集群安裝 2 3 1 配置並啟動Spark集群 2 3 2 使用spark-submit提交代碼 2 3 3 Spark History Server歷史服務 2 3 4 獨立集群模式的代碼運行流程 2 4 Spark on YARN模式安裝 2 4 1 安裝Hadoop集群 2 4 2 格式化NameNode 2 4 3 啟動Hadoop集群 2 4 4 配置Spark運行在YARN上 2 4 5 使用spark-submit提交代碼 2 4 6 Spark on YARN模式代碼運行流程 2 5 雲服務模式Databricks介紹 2 5 1 Databricks基本概念 2 5 2 創建集群 2 5 3 數據集成 2 5 4 創建筆記本 2 5 5 運行案例 2 5 6 創建作業 2 5 7 運行作業 2 5 8 其他類型的作業 2 6 本章小結 第3章 數據分析基礎 3 1 什麼是數據分析 3 2 Python數據分析工具介紹 3 2 1 數學計算庫NumPy介紹 3 2 2 數據分析庫Pandas介紹 3 3 數據分析圖表介紹 3 4 Python數據可視化工具介紹 3 4 1 Matplotlib介紹 3 4 2 Seaborn介紹 3 4 3 Pyecharts介紹 3 4 4 三種可視化工具的對比 3 5 本章小結 第4章 選擇合適的開發工具 4 1 使用Databricks探索數據 4 1 1 使用筆記本開發代碼 4 1 2 【實戰案例】阿凡達電影評價分析 4 2 使用JupyterLab探索數據 4 2 1 創建虛擬環境 4 2 2 安裝JupyterLab 4 2 3 集成Spark引擎 4 2 4 【實戰案例】二手房數據分析 4 3 使用PyCharm探索數據 4 3 1 安裝PyCharm 4 3 2 安裝Python 4 3 3 創建PyCharm項目 4 3 4 PyCharm插件介紹 4 3 5 【實戰案例】招聘信息數據分析 4 4 本章小結 第5章 核心功能Spark Core 5 1 SparkContext介紹 5 2 RDD介紹 5 3 RDD的特性 5 4 RDD的創建 5 4 1 通過并行化本地集合創建RDD 5 4 2 通過外部文件系統數據創建RDD 5 4 3 通過已存在的RDD衍生新的RDD 5 5 RDD的運算元 5 5 1 什麼是運算元 5 5 2 運算元的分類 5 6 常用的Transformation運算元 5 6 1 基本運算元 5 6 2 二元組相關的運算元 5 6 3 分區相關的運算元 5 7 常用的Action運算元 5 7 1 基本運算元 5 7 2 Executor端執行的運算元 5 8 RDD的持久化 5 8 1 緩存 5 8 2 緩存的特點 5 8 3 檢查點 5 8 4 緩存和檢查點的比較 5 9 共享變數 5 9 1 廣播變數 5 9 2 累加器 5 10 【實戰案例】共享單車租賃數據分析 5 10 1 數據集成 5 10 2 不同月份的租賃數據分析 5 10 3 不同時間的租賃數據分析 5 10 4 不同周期的租賃數據分析 5 10 5 不同維度的租賃數據分析 5 10 6 天氣對租賃需求的影響 5 10 7 溫度、風速對租賃需求的影響 5 11 本章小結 第6章 結構化數據處理Spark SQL 6 1 Spark SQL概述 6 1 1 什麼是Spark SQL 6 1 2 Spark SQL的特點 6 2 Spark SQL的發展歷程 6 2 1 從HDFS到Hive 6 2 2 從Hive到Shark 6 2 3 從Shark到Spark SQL 6 3 SparkSession介紹 6 4 DataFrame概述 6 4 1 什麼是DataFrame 6 4 2 DataFrame的組成 6 5 DataFrame的創建 6 5 1 通過RDD創建 6 5 2 通過Pandas的DataFrame創建 6 5 3 通過外部數據創建 6 6 DataFrame的基本操作 6 6 1 DSL語法風格 6 6 2 Spark Join策略介紹 6 6 3 SQL語法風格 6 7 DataFrame的函數操作 6 7 1 內置函數 6 7 2 窗口函數 6 7 3 自定義函數 6 8 DataFrame的數據清洗 6 8 1 刪除重複行 6 8 2 缺失值的處理 6 9 DataFrame的持久化 6 10 DataFrame的數據寫出 6 10 1 寫出數據到文件 6 10 2 寫出數據到資料庫 6 11 【實戰案例】世界盃數據可視化分析 6 11 1 世界盃成績匯總信息分析 6 11 2 世界盃 詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。 |