*完成訂單後正常情形下約兩周可抵台。 *本賣場提供之資訊僅供參考,以到貨標的為正確資訊。 印行年月:202405*若逾兩年請先於私訊洽詢存貨情況,謝謝。 台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。 書名:Spark大數據演算法 ISBN:9787519887728 出版社:中國電力 著編譯者:馬哈默德.帕瑞斯安 頁數:485 所在地:中國大陸 *此為代購商品 書號:1639282 可大量預訂,請先連絡。 內容簡介 Apache Spark不僅速度快,易於使用,還提供了豐富的分析能力和多語言支持,掌握這個集群計算框架的實用知識已經成為數據工程師和數據科學家的必備技能。利用這本實用指南,想要了解Spark的人能從中學到實用的PySpark演算法和示例。 每一章中,本書作者會向你展示如何用一組Spark轉換和演算法解決一個數據問題。你會了解如何應對涉及ETL、設計模式、機器學習演算法、數據分區和基因組分析的問題。每個技巧都提供了利用PySpark驅動器的PySpark演算法和shell腳本。作者簡介 馬哈默德·帕瑞斯安(Mahmoud Parsian),計算機科學博士,是一位熱衷於實踐的軟體專家,作為開發人員、設計人員、架構師和作者,他有30多年的軟體開發經驗。目前領導著Illumina的大數據團隊,在過去15年間,他主要從事Java(伺服器端)、資料庫、MapReduce和分散式計算的有關工作。Mahmoud還著有《JDBC Recipes》和《JDBC Metadata,MySQL,and Oracle Recipes》等書(均由Apress出版)。目錄 序前言 第Ⅰ部分 基礎知識 第1章 Spark和PySpark簡介 1 1 為什麼使用Spark完成數據分析 1 1 1 Spark生態系統 1 1 2 Spark架構 1 2 PySpark的能力 1 3 Spark數據抽象 1 3 1 RDD示例 1 3 2 Spark RDD操作 1 3 3 DataFrame示例 1 4 使用PySpark Shell 1 4 1 啟動PySpark Shell 1 4 2 由集合創建RDD 1 4 3 聚合和合併鍵的值 1 4 4 過濾RDD的元素 1 4 5 對類似的鍵分組 1 4 6 聚合類似鍵的值 1 5 使用 DataFrame的ETL示例 1 5 1 抽取 1 5 2 轉換 1 5 3 載入 1 6 小結 第2章 轉換實戰 2 1 DNA鹼基計數示例 2 1 1 DNA鹼基計數問題 2 1 2 FASTA格式 2 1 3 示例數據 2 2 DNA鹼基計數解決方案1 2 2 1 步驟1:由輸入創建一個RDD[String] 2 2 2 步驟2:定義一個映射器函數 2 2 3 步驟3:得出DNA字母頻度 2 2 4 解決方案1的優缺點 2 3 DNA鹼基計數解決方案2 2 3 1 步驟1:由輸入創建一個RDD[String] 2 3 2 步驟2:定義一個映射器函數 2 3 3 步驟3:得出 DNA字母頻度 2 3 4 解決方案2的優缺點 2 4 DNA鹼基計數解決方案3 2 4 1 mapPartitions()轉換 2 4 2 步驟1:由輸入創建一個RDD[String] 2 4 3 步驟2:定義函數處理一個分區 2 4 4 步驟3:對各個分區應用自定義函數 2 4 5 解決方案3的優缺點 2 5 小結 第3章 映射器轉換 3 1 數據抽象和映射器 3 2 轉換是什麼 3 2 1 懶轉換 3 2 2 map()轉換 第Ⅱ部分 處理數據 第Ⅲ部分 數據設計模式 詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。 |