Python和PySpark數據分析喬納森.里烏 9787302645368 【台灣高等教育出版社】

Name: Python和PySpark數據分析 喬納森.里烏 9787302645368 【台灣高等教育出版社】
Brand: abooksthep
Price: 750.0 TWD
Availability: InStock

圖書均為代購，正常情形下，訂後約兩周可抵台。
物品所在地：中國大陸
原出版社：清華大學

NT$750

商品編號:

供貨狀況: 尚有庫存

加入最愛

商品介紹

*完成訂單後正常情形下約兩周可抵台。
*本賣場提供之資訊僅供參考，以到貨標的為正確資訊。
印行年月：202310*若逾兩年請先於私訊洽詢存貨情況，謝謝。
台灣(台北市)在地出版社，每筆交易均開具統一發票，祝您中獎最高1000萬元。
書名：Python和PySpark數據分析
ISBN：9787302645368
出版社：清華大學
著編譯者：喬納森.里烏
頁數：402
所在地：中國大陸 *此為代購商品
書號：1584643
可大量預訂，請先連絡。

內容簡介

Spark數據處理引擎是一個驚人的分析工廠：輸入原始數據，輸出洞察。PySpark用基於Python的API封裝了Spark的核心引擎。它有助於簡化Spark陡峭的學習曲線，並使這個強大的工具可供任何在Python數據生態系統中工作的人使用。本書幫助你使用PySpark解決數據科學的日常挑戰。你將學習如何跨多台機器擴展處理能力，同時從任何來源（無論是Hadoop集群、雲數據存儲還是本地數據文件）獲取數據。一旦掌握了基礎知識，就可以通過構建機器學習管道，並配合Python、pandas和PySpark代碼，探索PySpark的全面多功能特性。

作者簡介

喬納森·里烏，作為一家數據驅動軟體公司的ML總監，Jonathan Rioux每天都在使用PySpark。他向數據科學家、數據工程師和精通數據的業務分析師講授PySpark的用法。

第1章介紹
1 1 什麼是PySpark
1 1 1 從頭開始：什麼是Spark
1 1 2 PySpark=Spark+Python
1 1 3 為什麼選擇PySpark
1 2 PySpark的工作原理
1 2 1 使用集群管理器進行物理規劃
1 2 2 懶惰的主管成就工廠的高效
1 3 你將從本書學到什麼
1 4 我們將如何開始
1 5 本章小結
第Ⅰ部分介紹：PySpark的第一步
第2章使用PySpark編寫的第一個數據處理程序
2 1 設置pysparkshell
2 1 1 SparkSession入口點
2 1 2 配置PySpark的日誌級別
2 2 映射程序
2 3 採集和探索：為數據轉換奠定基礎
2 3 1 用spark read將數據讀入數據幀
2 3 2 從結構到內容：使用show()探索數據幀
2 4 簡單的列轉換：將句子拆解為單詞列表
2 4 1 使用select()選擇特定的列
2 4 2 轉換列：將字元串拆分為單詞列表
2 4 3 重命名列：alias和withColumnRenamed
2 4 4 重塑數據：將list分解成行
2 4 5 處理單詞：更改大小寫並刪除標點符號
2 5 篩選記錄
2 6 本章小結
2 7 擴展練習
第3章提交並擴展你的第一個PySpark程序
3 1 對記錄進行分組：計算詞頻
3 2 使用orderBy對結果排序
3 3 保存數據幀中的數據
3 4 整合所有內容：計數
3 4 1 使用PySpark的導入約定簡化依賴
3 4 2 通過方法鏈簡化程序
3 5 使用spark-submit以批處理模式啟動程序
3 6 本章未涉及的內容
3 7 擴展詞頻程序
3 8 本章小結
3 9 擴展練習
第4章使用pyspark sql分析表格數據
4 1 什麼是表格數據
4 2 使用PySpark分析和處理表格數據
4 3 在PySpark中讀取和評估帶分隔符的數據
4 3 1 第一次使用專門處理CSV文件的SparkReader
4 3 2 自定義SparkReader對象來讀取CSV數據文件
4 3 3 探索數據世界的輪廓

第Ⅱ部分進級：將你的想法轉化為代碼
第Ⅲ部分使用PySpark進行機器學習
附錄A 習題答案
附錄B 安裝PySpark
附錄C 一些有用的Python內容

詳細資料或其他書籍請至台灣高等教育出版社查詢，查後請於PChome商店街私訊告知ISBN或書號，我們即儘速上架。