PySpark大數據分析實戰伍鮮常麗娟 9787111739593 【台灣高等教育出版社】

Name: PySpark大數據分析實戰 伍鮮 常麗娟 9787111739593 【台灣高等教育出版社】
Brand: abooksthep
Price: 757.0 TWD
Availability: InStock

圖書均為代購，正常情形下，訂後約兩周可抵台。
物品所在地：中國大陸
原出版社：機械工業

NT$757

商品編號:

供貨狀況: 尚有庫存

加入最愛

商品介紹

*完成訂單後正常情形下約兩周可抵台。
*本賣場提供之資訊僅供參考，以到貨標的為正確資訊。
印行年月：202312*若逾兩年請先於私訊洽詢存貨情況，謝謝。
台灣(台北市)在地出版社，每筆交易均開具統一發票，祝您中獎最高1000萬元。
書名：PySpark大數據分析實戰
ISBN：9787111739593
出版社：機械工業
著編譯者：伍鮮常麗娟
叢書名：大數據科學叢書
頁數：372
所在地：中國大陸 *此為代購商品
書號：1598341
可大量預訂，請先連絡。

內容簡介

本書是PySpark大數據分析的入門讀物，適合有一定Python基礎的讀者學習使用。本書基於最新版本的PySpark 3 4 x編寫，全書共11章，系統地介紹了PySpark大數據分析的方法和技巧，內容涵蓋了大數據的相關技術、PySpark的基本概念、Spark環境搭建、數據分析的基本概念及相關工具、開發工具的選擇、Spark核心編程和Spark SQL操作等基礎知識和核心技術，以及Spark流式數據處理、Spark機器學習庫MLlib和基於協同過濾的圖書推薦系統等高級主題。本書通過多個實戰案例，帶領讀者掌握使用Python和Spark進行大數據分析的方法和技巧，從而提高讀者的數據處理能力和業務價值。本書內容全面、示例豐富、講解清晰，讀者可以直接應用書中的案例。本書適合自學，也可作為計算機、軟體工程、數據科學與大數據等專業的教學參考書，用於指導大數據分析編程實踐，還可供相關技術人員參考。

作者簡介

伍鮮，就職于中電金信軟體有限公司，擔任高級軟體工程師。擁有多年金融領域大數據處理實戰經驗，曾負責多家銀行的Teradata數據倉庫、FusionInsight大數據集群、阿里雲大數據倉庫、智能營銷客戶集市和客戶中心建設。熱衷於各種主流技術，對大數據技術棧Hadoop、Hive、Spark、Kafka等有深入研究。熱愛數據科學、機器學習、雲計算、人工智慧通過了微軟Azure開發人員、Azure數據工程師Azure解決方案架構師專家認證，對Databricks的使用有豐富的經驗。

前言
第1章初識PySpark
1 1 關於數據
1 2 了解Hadoop
1 2 1 分散式文件系統HDFS
1 2 2 分散式計算框架MapReduce
1 2 3 資源調度管理框架YARN
1 3 了解Hive
1 4 了解Spark
1 4 1 Spark是什麼
1 4 2 Spark的發展歷程
1 4 3 Spark的特點
1 4 4 Spark的生態系統
1 4 5 Spark的部署模式
1 4 6 Spark的運行架構
1 5 PySpark庫介紹
1 6 本章小結
第2章 Spark環境搭建
2 1 安裝環境準備
2 1 1 操作系統準備
2 1 2 Java環境準備
2 1 3 Python環境準備
2 1 4 Spark安裝包下載
2 1 5 Hadoop安裝包下載
2 2 Spark本地模式安裝
2 2 1 使用互動式pyspark運行代碼
2 2 2 寬窄依賴和階段劃分
2 2 3 使用spark-submit提交代碼
2 3 Spark獨立集群安裝
2 3 1 配置並啟動Spark集群
2 3 2 使用spark-submit提交代碼
2 3 3 Spark History Server歷史服務
2 3 4 獨立集群模式的代碼運行流程
2 4 Spark on YARN模式安裝
2 4 1 安裝Hadoop集群
2 4 2 格式化NameNode
2 4 3 啟動Hadoop集群
2 4 4 配置Spark運行在YARN上
2 4 5 使用spark-submit提交代碼
2 4 6 Spark on YARN模式代碼運行流程
2 5 雲服務模式Databricks介紹
2 5 1 Databricks基本概念
2 5 2 創建集群
2 5 3 數據集成
2 5 4 創建筆記本
2 5 5 運行案例
2 5 6 創建作業
2 5 7 運行作業
2 5 8 其他類型的作業
2 6 本章小結
第3章數據分析基礎
3 1 什麼是數據分析
3 2 Python數據分析工具介紹
3 2 1 數學計算庫NumPy介紹
3 2 2 數據分析庫Pandas介紹
3 3 數據分析圖表介紹
3 4 Python數據可視化工具介紹
3 4 1 Matplotlib介紹
3 4 2 Seaborn介紹
3 4 3 Pyecharts介紹
3 4 4 三種可視化工具的對比
3 5 本章小結
第4章選擇合適的開發工具
4 1 使用Databricks探索數據
4 1 1 使用筆記本開發代碼
4 1 2 【實戰案例】阿凡達電影評價分析
4 2 使用JupyterLab探索數據
4 2 1 創建虛擬環境
4 2 2 安裝JupyterLab
4 2 3 集成Spark引擎
4 2 4 【實戰案例】二手房數據分析
4 3 使用PyCharm探索數據
4 3 1 安裝PyCharm
4 3 2 安裝Python
4 3 3 創建PyCharm項目
4 3 4 PyCharm插件介紹
4 3 5 【實戰案例】招聘信息數據分析
4 4 本章小結
第5章核心功能Spark Core
5 1 SparkContext介紹
5 2 RDD介紹
5 3 RDD的特性
5 4 RDD的創建
5 4 1 通過并行化本地集合創建RDD
5 4 2 通過外部文件系統數據創建RDD
5 4 3 通過已存在的RDD衍生新的RDD
5 5 RDD的運算元
5 5 1 什麼是運算元
5 5 2 運算元的分類
5 6 常用的Transformation運算元
5 6 1 基本運算元
5 6 2 二元組相關的運算元
5 6 3 分區相關的運算元
5 7 常用的Action運算元
5 7 1 基本運算元
5 7 2 Executor端執行的運算元
5 8 RDD的持久化
5 8 1 緩存
5 8 2 緩存的特點
5 8 3 檢查點
5 8 4 緩存和檢查點的比較
5 9 共享變數
5 9 1 廣播變數
5 9 2 累加器
5 10 【實戰案例】共享單車租賃數據分析
5 10 1 數據集成
5 10 2 不同月份的租賃數據分析
5 10 3 不同時間的租賃數據分析
5 10 4 不同周期的租賃數據分析
5 10 5 不同維度的租賃數據分析
5 10 6 天氣對租賃需求的影響
5 10 7 溫度、風速對租賃需求的影響
5 11 本章小結
第6章結構化數據處理Spark SQL
6 1 Spark SQL概述
6 1 1 什麼是Spark SQL
6 1 2 Spark SQL的特點
6 2 Spark SQL的發展歷程
6 2 1 從HDFS到Hive
6 2 2 從Hive到Shark
6 2 3 從Shark到Spark SQL
6 3 SparkSession介紹
6 4 DataFrame概述
6 4 1 什麼是DataFrame
6 4 2 DataFrame的組成
6 5 DataFrame的創建
6 5 1 通過RDD創建
6 5 2 通過Pandas的DataFrame創建
6 5 3 通過外部數據創建
6 6 DataFrame的基本操作
6 6 1 DSL語法風格
6 6 2 Spark Join策略介紹
6 6 3 SQL語法風格
6 7 DataFrame的函數操作
6 7 1 內置函數
6 7 2 窗口函數
6 7 3 自定義函數
6 8 DataFrame的數據清洗
6 8 1 刪除重複行
6 8 2 缺失值的處理
6 9 DataFrame的持久化
6 10 DataFrame的數據寫出
6 10 1 寫出數據到文件
6 10 2 寫出數據到資料庫
6 11 【實戰案例】世界盃數據可視化分析
6 11 1 世界盃成績匯總信息分析
6 11 2 世界盃
詳細資料或其他書籍請至台灣高等教育出版社查詢，查後請於PChome商店街私訊告知ISBN或書號，我們即儘速上架。