PySpark原理深入與編程實戰 (微課視頻版) 辛立偉 辛雨桐 9787302625971 【台灣高等教育出版社】

圖書均為代購,正常情形下,訂後約兩周可抵台。
物品所在地:中國大陸
原出版社:清華大學
NT$757
商品編號:
供貨狀況: 尚有庫存

此商品參與的優惠活動

加入最愛
商品介紹
*完成訂單後正常情形下約兩周可抵台
*本賣場提供之資訊僅供參考,以到貨標的為正確資訊。
印行年月:202308*若逾兩年請先於私訊洽詢存貨情況,謝謝。
台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。
書名:PySpark原理深入與編程實戰 (微課視頻版)
ISBN:9787302625971
出版社:清華大學
著編譯者:辛立偉 辛雨桐
叢書名:開發者成長叢書
頁數:490
所在地:中國大陸 *此為代購商品
書號:1557249
可大量預訂,請先連絡。

內容簡介

本書系統講述Apache Spark/PySpark大數據計算平台的原理,以及如何將Apache PySpark應用於大數據的實時流處理、批處理等場景。通過對原理的深入講解和對實踐示例、案例的講解,使讀者了解並掌握Apache Spark/PySpark的基本原理和技能,拉近理論與實踐的距離。 全書共分為8章,主要內容包括Spark架構原理與集群搭建、開發和部署PySpark應用程序、PySpark核心編程、PySpark SQL、PySpark結構化流、PySpark大數據分析綜合案例。本書源碼全部在Apache Spark 3 1 2上調試成功,所有示例和案例均基於Python 3 x語言。 為降低讀者學習大數據技術的門檻,本書除提供了豐富的上機實踐操作和詳細的範例程序講解之外,還提供了搭建好的Hadoop、Hive數據倉庫和PySpark大數據開發和學習環境。讀者既可參照本書的講解自行搭建Hadoop和PySpark環境,也可直接使用本書提供的開發和學習環境,快速開始大數據和PySpark的學習。 本書內容全面、實例豐富、可操作性強,做到了理論與實踐相結合。本書適合大數據學習愛好者、想要入門Apache Spark/PySpark的讀者作為入門和提高的技術參考書,也適合用作高等院校大數據專業相關課程的教材或教學參考書。

作者簡介

辛立偉,一個在IT領域摸爬滾打二十多年的老程序員、技術培訓師、技術作者。橫跨Java、資料庫、大數據開發與分析、人工智慧等多個領域,參与多個IT項目的架構設計與開發。長期堅持撰寫技術博客,曾在多個大學講授Java開發、資料庫和大數據技術課程,曾擔任中國石油大學(青島校區)等多所院校的外聘講師。

目錄

第1章 Spark架構原理與集群搭建(回78min)
1 1 Spark簡介
1 2 Spark技術找
1 2 1 Spark Core
1 2 2 Spark SQL
1 2 3 Spark Streaming和Structured Streaming
1 2 4 Spark MLlib
1 2 5 Spark GraphX
1 2 6 SparkR
1 3 Spark和PySpark架構原理
1 3 1 Spark集群和資源管理系統
1 3 2 Spark應用程序
1 3 3 Spark Driver和Executor
1 3 4 PySpark架構
1 4 Spark程序部署模式
1 5 安裝和配置Spark集群
1 5 1 安裝Spark
1 5 2 了解Spark

目錄

結構
1 5 3 配置Spark/PySpark集群
1 5 4 驗證PySpark安裝
1 6 配置Spark歷史伺服器
1 6 1 歷史伺服器配置
1 6 2 啟動Spark歷史伺服器
1 7 使用PySpark Shell進行互動式分析
1 7 1 運行模式--master
1 7 2 啟動和退出PySpark Shell
1 7 3 PySpark Shell常用命令
1 7 4 SparkContext和SparkSession
1 7 5 Spark Web UI
1 8 使用spark-submit提交PySpark應用程序
1 8 1 spark-submit指令的各種參數說明
1 8 2 提交pi ipynb程序,計算圓周率x值
1 8 3 將PySpark程序提交到YARN集群上執行
第2章 開發和部署PySpark應用程序
2 1 使用PyCharm開發PySpark應用程序
2 1 1 準備數據文件
2 1 2 安裝PyCharm
2 1 3 創建一個新的PyChamm項目
2 1 4 安裝PySpark包
2 1 5 創建PySpark應用程序
2 1 6 部署到集群中運行
2 2 使用Zeppelin進行互動式分析
2 2 1 下載Zeppelin安裝包
2 2 2 安裝和配置Zeppelin
2 2 3 配置Spark/PySpark解釋器
2 2 4 創建和執行Notebook文件
2 3 使用Jupyter Notebook進行互動式分析
2 3 1 配置PySpark Driver使用Jupyter Notebook
2 3 2 使用findSpark包
第3章 PySpark核心編程
3 1 理解數據抽象RDD
3 2 RDD編程模型
3 2 1 單詞計數應用程序
3 2 2 理解SparkSession
3 2 3 理解SparkContext
3 3 創建RDD
3 3 1 將現有的集合併行化以創建RDD
3 3 2 從存儲系統讀取數據集以創建RDD
3 3 3 從已有的RDD轉換得到新的RDD
3 3 4 創建RDD時指定分區數量
3 4 操作RDD
3 4 1 RDD上的Transformation和Action
3 4 2 RDD Transformation操作
3 4 3 RDD Action操作
3 4 4 RDD上的描述性統計操作
3 5 Key-Value Pair RDD
3 5 1 創建Pair RDD
3 5 2 操作Pair RDD
3 5 3 關於reduceByKey()操作
3 5 4 關於aggregateByKey()操作
3 5 5 關於combineByKey()操作
3 6 持久化RDD
3 6 1 緩存RDD
3 6 2 RDD緩存策略
3 6 3 檢查點RDD
3 7 數據分區
3 7 1 獲取和指定RDD分區數
3 7 2 調整RDD分區數
3 7 3 內置數據分區器
3 7 4 自定義數據分區器
3 7 5 避免不必要的shuffling
3 7 6 基於數據分區的操作
3 8 使用共享變數
3 8 1 廣播變數
3 8 2 累加器
3 9 PySpark RDD可視化
3 10 PySpark RDD編程案例
3 10 1 合併小文件
3 10 2 二次排序實現
3 10 3 Top N實現
3 10 4 數據聚合計算
第4章 PySpark SQL(初級)
4 1 PySpark SQL數據抽象
4 2 PySpark SQL編程模型
4 3 程序入口SparkSession
4 4 PySpark SQL中的模式和對象
4 4 1 模式
4 4 2 列對象和行對象
4 5 簡單構造DataFrame
4 5 1 簡單創建單列和多列DataFrame
4 5 2 從RDD創建DataFrame
4 5 3 讀取外部數據源創建DataFrame
4 6 操作DataFrame
4 6 1 列的多種引用方式
4 6 2 對DataFrame執行Transformation轉換操作
4 6 3 對DataFrame執行Action操作
4 6 4 對DataFrame執行描述性統計操作
4 6 5 提取DataFrame Row中特定欄位
4 6 6 操作DataFrame示例
4 7 存儲DataFrame
4 7 1 寫出DataFrame
4 7 2 存儲模式
4 7 3 控制DataFrame的輸出文件數量
4 7 4 控制DataFrame實現分區存儲
4 8 臨時視圖與SQL查詢
4 8 1 在PySpark程序中執行SQL語句
4 8 2 註冊臨時視圖並執行SQL查詢
4 8 3 使用全局臨時視圖
4 8 4 直接使用數據源註冊臨時視圖
4 8 5 查看和管理表

目錄


4 9 緩存DataFrame
4 9 1 緩存方法
4 9 2 緩存策略
4 9 3 緩存表
4 10 PySpark SQL可視化
4 10 1 PySpark DataFrame轉換到Pandas
4 10 2 PySpark SQL DataFrame可視化
4 11 PySpark SQL編程案例
4 11 1 實現單詞計數
4 11 2 用戶數據集分析
4 11 3 航空公司航班數據集分析
第5章 PySpark SQL(高級)
5 1 P
詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。
規格說明
運送方式
已加入購物車
已更新購物車
網路異常,請重新整理