| *完成訂單後正常情形下約兩周可抵台。 *本賣場提供之資訊僅供參考,以到貨標的為正確資訊。 印行年月:202310*若逾兩年請先於私訊洽詢存貨情況,謝謝。 台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。 書名:Python和PySpark數據分析 ISBN:9787302645368 出版社:清華大學 著編譯者:喬納森.里烏 頁數:402 所在地:中國大陸 *此為代購商品 書號:1584643 可大量預訂,請先連絡。 內容簡介 Spark數據處理引擎是一個驚人的分析工廠:輸入原始數據,輸出洞察。PySpark用基於Python的API封裝了Spark的核心引擎。它有助於簡化Spark陡峭的學習曲線,並使這個強大的工具可供任何在Python數據生態系統中工作的人使用。 本書幫助你使用PySpark解決數據科學的日常挑戰。你將學習如何跨多台機器擴展處理能力,同時從任何來源(無論是Hadoop集群、雲數據存儲還是本地數據文件)獲取數據。一旦掌握了基礎知識,就可以通過構建機器學習管道,並配合Python、pandas和PySpark代碼,探索PySpark的全面多功能特性。作者簡介 喬納森·里烏,作為一家數據驅動軟體公司的ML總監,Jonathan Rioux每天都在使用PySpark。他向數據科學家、數據工程師和精通數據的業務分析師講授PySpark的用法。目錄 第1章 介紹1 1 什麼是PySpark 1 1 1 從頭開始:什麼是Spark 1 1 2 PySpark=Spark+Python 1 1 3 為什麼選擇PySpark 1 2 PySpark的工作原理 1 2 1 使用集群管理器進行物理規劃 1 2 2 懶惰的主管成就工廠的高效 1 3 你將從本書學到什麼 1 4 我們將如何開始 1 5 本章小結 第Ⅰ部分 介紹:PySpark的第一步 第2章 使用PySpark編寫的第一個數據處理程序 2 1 設置pysparkshell 2 1 1 SparkSession入口點 2 1 2 配置PySpark的日誌級別 2 2 映射程序 2 3 採集和探索:為數據轉換奠定基礎 2 3 1 用spark read將數據讀入數據幀 2 3 2 從結構到內容:使用show()探索數據幀 2 4 簡單的列轉換:將句子拆解為單詞列表 2 4 1 使用select()選擇特定的列 2 4 2 轉換列:將字元串拆分為單詞列表 2 4 3 重命名列:alias和withColumnRenamed 2 4 4 重塑數據:將list分解成行 2 4 5 處理單詞:更改大小寫並刪除標點符號 2 5 篩選記錄 2 6 本章小結 2 7 擴展練習 第3章 提交並擴展你的第一個PySpark程序 3 1 對記錄進行分組:計算詞頻 3 2 使用orderBy對結果排序 3 3 保存數據幀中的數據 3 4 整合所有內容:計數 3 4 1 使用PySpark的導入約定簡化依賴 3 4 2 通過方法鏈簡化程序 3 5 使用spark-submit以批處理模式啟動程序 3 6 本章未涉及的內容 3 7 擴展詞頻程序 3 8 本章小結 3 9 擴展練習 第4章 使用pyspark sql分析表格數據 4 1 什麼是表格數據 4 2 使用PySpark分析和處理表格數據 4 3 在PySpark中讀取和評估帶分隔符的數據 4 3 1 第一次使用專門處理CSV文件的SparkReader 4 3 2 自定義SparkReader對象來讀取CSV數據文件 4 3 3 探索數據世界的輪廓 第Ⅱ部分 進級:將你的想法轉化為代碼 第Ⅲ部分 使用PySpark進行機器學習 附錄A 習題答案 附錄B 安裝PySpark 附錄C 一些有用的Python內容 詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。 |