Python和PySpark數據分析 喬納森.里烏 9787302645368 【台灣高等教育出版社】

圖書均為代購,正常情形下,訂後約兩周可抵台。
物品所在地:中國大陸
原出版社:清華大學
NT$750
商品編號:
供貨狀況: 尚有庫存

此商品參與的優惠活動

加入最愛
商品介紹
*完成訂單後正常情形下約兩周可抵台
*本賣場提供之資訊僅供參考,以到貨標的為正確資訊。
印行年月:202310*若逾兩年請先於私訊洽詢存貨情況,謝謝。
台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。
書名:Python和PySpark數據分析
ISBN:9787302645368
出版社:清華大學
著編譯者:喬納森.里烏
頁數:402
所在地:中國大陸 *此為代購商品
書號:1584643
可大量預訂,請先連絡。

內容簡介

Spark數據處理引擎是一個驚人的分析工廠:輸入原始數據,輸出洞察。PySpark用基於Python的API封裝了Spark的核心引擎。它有助於簡化Spark陡峭的學習曲線,並使這個強大的工具可供任何在Python數據生態系統中工作的人使用。 本書幫助你使用PySpark解決數據科學的日常挑戰。你將學習如何跨多台機器擴展處理能力,同時從任何來源(無論是Hadoop集群、雲數據存儲還是本地數據文件)獲取數據。一旦掌握了基礎知識,就可以通過構建機器學習管道,並配合Python、pandas和PySpark代碼,探索PySpark的全面多功能特性。

作者簡介

喬納森·里烏,作為一家數據驅動軟體公司的ML總監,Jonathan Rioux每天都在使用PySpark。他向數據科學家、數據工程師和精通數據的業務分析師講授PySpark的用法。

目錄

第1章 介紹
1 1 什麼是PySpark
1 1 1 從頭開始:什麼是Spark
1 1 2 PySpark=Spark+Python
1 1 3 為什麼選擇PySpark
1 2 PySpark的工作原理
1 2 1 使用集群管理器進行物理規劃
1 2 2 懶惰的主管成就工廠的高效
1 3 你將從本書學到什麼
1 4 我們將如何開始
1 5 本章小結
第Ⅰ部分 介紹:PySpark的第一步
第2章 使用PySpark編寫的第一個數據處理程序
2 1 設置pysparkshell
2 1 1 SparkSession入口點
2 1 2 配置PySpark的日誌級別
2 2 映射程序
2 3 採集和探索:為數據轉換奠定基礎
2 3 1 用spark read將數據讀入數據幀
2 3 2 從結構到內容:使用show()探索數據幀
2 4 簡單的列轉換:將句子拆解為單詞列表
2 4 1 使用select()選擇特定的列
2 4 2 轉換列:將字元串拆分為單詞列表
2 4 3 重命名列:alias和withColumnRenamed
2 4 4 重塑數據:將list分解成行
2 4 5 處理單詞:更改大小寫並刪除標點符號
2 5 篩選記錄
2 6 本章小結
2 7 擴展練習
第3章 提交並擴展你的第一個PySpark程序
3 1 對記錄進行分組:計算詞頻
3 2 使用orderBy對結果排序
3 3 保存數據幀中的數據
3 4 整合所有內容:計數
3 4 1 使用PySpark的導入約定簡化依賴
3 4 2 通過方法鏈簡化程序
3 5 使用spark-submit以批處理模式啟動程序
3 6 本章未涉及的內容
3 7 擴展詞頻程序
3 8 本章小結
3 9 擴展練習
第4章 使用pyspark sql分析表格數據
4 1 什麼是表格數據
4 2 使用PySpark分析和處理表格數據
4 3 在PySpark中讀取和評估帶分隔符的數據
4 3 1 第一次使用專門處理CSV文件的SparkReader
4 3 2 自定義SparkReader對象來讀取CSV數據文件
4 3 3 探索數據世界的輪廓

第Ⅱ部分 進級:將你的想法轉化為代碼
第Ⅲ部分 使用PySpark進行機器學習
附錄A 習題答案
附錄B 安裝PySpark
附錄C 一些有用的Python內容

詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。
規格說明
運送方式
已加入購物車
已更新購物車
網路異常,請重新整理