*完成訂單後正常情形下約兩周可抵台。 *本賣場提供之資訊僅供參考,以到貨標的為正確資訊。 印行年月:202308*若逾兩年請先於私訊洽詢存貨情況,謝謝。 台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。 書名:PySpark原理深入與編程實戰 (微課視頻版) ISBN:9787302625971 出版社:清華大學 著編譯者:辛立偉 辛雨桐 叢書名:開發者成長叢書 頁數:490 所在地:中國大陸 *此為代購商品 書號:1557249 可大量預訂,請先連絡。 內容簡介 本書系統講述Apache Spark/PySpark大數據計算平台的原理,以及如何將Apache PySpark應用於大數據的實時流處理、批處理等場景。通過對原理的深入講解和對實踐示例、案例的講解,使讀者了解並掌握Apache Spark/PySpark的基本原理和技能,拉近理論與實踐的距離。 全書共分為8章,主要內容包括Spark架構原理與集群搭建、開發和部署PySpark應用程序、PySpark核心編程、PySpark SQL、PySpark結構化流、PySpark大數據分析綜合案例。本書源碼全部在Apache Spark 3 1 2上調試成功,所有示例和案例均基於Python 3 x語言。 為降低讀者學習大數據技術的門檻,本書除提供了豐富的上機實踐操作和詳細的範例程序講解之外,還提供了搭建好的Hadoop、Hive數據倉庫和PySpark大數據開發和學習環境。讀者既可參照本書的講解自行搭建Hadoop和PySpark環境,也可直接使用本書提供的開發和學習環境,快速開始大數據和PySpark的學習。 本書內容全面、實例豐富、可操作性強,做到了理論與實踐相結合。本書適合大數據學習愛好者、想要入門Apache Spark/PySpark的讀者作為入門和提高的技術參考書,也適合用作高等院校大數據專業相關課程的教材或教學參考書。作者簡介 辛立偉,一個在IT領域摸爬滾打二十多年的老程序員、技術培訓師、技術作者。橫跨Java、資料庫、大數據開發與分析、人工智慧等多個領域,參与多個IT項目的架構設計與開發。長期堅持撰寫技術博客,曾在多個大學講授Java開發、資料庫和大數據技術課程,曾擔任中國石油大學(青島校區)等多所院校的外聘講師。目錄 第1章 Spark架構原理與集群搭建(回78min)1 1 Spark簡介 1 2 Spark技術找 1 2 1 Spark Core 1 2 2 Spark SQL 1 2 3 Spark Streaming和Structured Streaming 1 2 4 Spark MLlib 1 2 5 Spark GraphX 1 2 6 SparkR 1 3 Spark和PySpark架構原理 1 3 1 Spark集群和資源管理系統 1 3 2 Spark應用程序 1 3 3 Spark Driver和Executor 1 3 4 PySpark架構 1 4 Spark程序部署模式 1 5 安裝和配置Spark集群 1 5 1 安裝Spark 1 5 2 了解Spark 目錄 結構1 5 3 配置Spark/PySpark集群 1 5 4 驗證PySpark安裝 1 6 配置Spark歷史伺服器 1 6 1 歷史伺服器配置 1 6 2 啟動Spark歷史伺服器 1 7 使用PySpark Shell進行互動式分析 1 7 1 運行模式--master 1 7 2 啟動和退出PySpark Shell 1 7 3 PySpark Shell常用命令 1 7 4 SparkContext和SparkSession 1 7 5 Spark Web UI 1 8 使用spark-submit提交PySpark應用程序 1 8 1 spark-submit指令的各種參數說明 1 8 2 提交pi ipynb程序,計算圓周率x值 1 8 3 將PySpark程序提交到YARN集群上執行 第2章 開發和部署PySpark應用程序 2 1 使用PyCharm開發PySpark應用程序 2 1 1 準備數據文件 2 1 2 安裝PyCharm 2 1 3 創建一個新的PyChamm項目 2 1 4 安裝PySpark包 2 1 5 創建PySpark應用程序 2 1 6 部署到集群中運行 2 2 使用Zeppelin進行互動式分析 2 2 1 下載Zeppelin安裝包 2 2 2 安裝和配置Zeppelin 2 2 3 配置Spark/PySpark解釋器 2 2 4 創建和執行Notebook文件 2 3 使用Jupyter Notebook進行互動式分析 2 3 1 配置PySpark Driver使用Jupyter Notebook 2 3 2 使用findSpark包 第3章 PySpark核心編程 3 1 理解數據抽象RDD 3 2 RDD編程模型 3 2 1 單詞計數應用程序 3 2 2 理解SparkSession 3 2 3 理解SparkContext 3 3 創建RDD 3 3 1 將現有的集合併行化以創建RDD 3 3 2 從存儲系統讀取數據集以創建RDD 3 3 3 從已有的RDD轉換得到新的RDD 3 3 4 創建RDD時指定分區數量 3 4 操作RDD 3 4 1 RDD上的Transformation和Action 3 4 2 RDD Transformation操作 3 4 3 RDD Action操作 3 4 4 RDD上的描述性統計操作 3 5 Key-Value Pair RDD 3 5 1 創建Pair RDD 3 5 2 操作Pair RDD 3 5 3 關於reduceByKey()操作 3 5 4 關於aggregateByKey()操作 3 5 5 關於combineByKey()操作 3 6 持久化RDD 3 6 1 緩存RDD 3 6 2 RDD緩存策略 3 6 3 檢查點RDD 3 7 數據分區 3 7 1 獲取和指定RDD分區數 3 7 2 調整RDD分區數 3 7 3 內置數據分區器 3 7 4 自定義數據分區器 3 7 5 避免不必要的shuffling 3 7 6 基於數據分區的操作 3 8 使用共享變數 3 8 1 廣播變數 3 8 2 累加器 3 9 PySpark RDD可視化 3 10 PySpark RDD編程案例 3 10 1 合併小文件 3 10 2 二次排序實現 3 10 3 Top N實現 3 10 4 數據聚合計算 第4章 PySpark SQL(初級) 4 1 PySpark SQL數據抽象 4 2 PySpark SQL編程模型 4 3 程序入口SparkSession 4 4 PySpark SQL中的模式和對象 4 4 1 模式 4 4 2 列對象和行對象 4 5 簡單構造DataFrame 4 5 1 簡單創建單列和多列DataFrame 4 5 2 從RDD創建DataFrame 4 5 3 讀取外部數據源創建DataFrame 4 6 操作DataFrame 4 6 1 列的多種引用方式 4 6 2 對DataFrame執行Transformation轉換操作 4 6 3 對DataFrame執行Action操作 4 6 4 對DataFrame執行描述性統計操作 4 6 5 提取DataFrame Row中特定欄位 4 6 6 操作DataFrame示例 4 7 存儲DataFrame 4 7 1 寫出DataFrame 4 7 2 存儲模式 4 7 3 控制DataFrame的輸出文件數量 4 7 4 控制DataFrame實現分區存儲 4 8 臨時視圖與SQL查詢 4 8 1 在PySpark程序中執行SQL語句 4 8 2 註冊臨時視圖並執行SQL查詢 4 8 3 使用全局臨時視圖 4 8 4 直接使用數據源註冊臨時視圖 4 8 5 查看和管理表 目錄 4 9 緩存DataFrame 4 9 1 緩存方法 4 9 2 緩存策略 4 9 3 緩存表 4 10 PySpark SQL可視化 4 10 1 PySpark DataFrame轉換到Pandas 4 10 2 PySpark SQL DataFrame可視化 4 11 PySpark SQL編程案例 4 11 1 實現單詞計數 4 11 2 用戶數據集分析 4 11 3 航空公司航班數據集分析 第5章 PySpark SQL(高級) 5 1 P 詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。 |