*完成訂單後正常情形下約兩周可抵台。 *本賣場提供之資訊僅供參考,以到貨標的為正確資訊。 印行年月:202404*若逾兩年請先於私訊洽詢存貨情況,謝謝。 台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。 書名:PySpark大數據分析與應用 ISBN:9787115634900 出版社:人民郵電 著編譯者:戴剛 張良均 頁數:275 所在地:中國大陸 *此為代購商品 書號:1647384 可大量預訂,請先連絡。 內容簡介 本書以Python作為開發語言,系統介紹PySpark開發環境搭建流程及基於PySpark進行大數據分析的相關知識。本書條理清晰、重點突出,理論敘述循序漸進、由淺入深。本書共7章,第1-5章包括PySpark大數據分析概述、PySpark安裝配置、基於PySpark的DataFrame操作、基於PySpark的流式數據處理、基於PySpark的機器學習庫,內容簡介 注重理論與實踐相結合,通過典型示例強化PySpark在大數據分析中的實際應用;第6、7章通過基於PySpark的網路招聘信息的職業類型劃分和基於PySpark的信用貸款風險分析兩個完整的案例實戰,結合前5章的PySpark編程知識,實現完整的大數據分析過程。本書大部分章包含實訓和課後習題,讀者通過練習和操作實踐,能夠鞏固所學的內容。 本書可作為高校數據科學或大數據相關專業的教材,也可作為機器學習愛好者的自學用書。目錄 第1章 PySpark大數據分析概述1 1 大數據分析概述 1 1 1 大數據的概念 1 1 2 大數據分析的概念 1 1 3 大數據分析的流程 1 1 4 大數據分析的應用場景 1 1 5 大數據技術體系 1 2 Spark大數據技術框架 1 2 1 Spark簡介 1 2 2 Spark特點 1 2 3 Spark運行架構與流程 1 2 4 SparkRDD 1 2 5 Spark生態圈 1 3 PySpark大數據分析 1 3 1 PySpark簡介 1 3 2 PySpark子模塊 小結 課後習題 第2章 PySpark安裝配置 2 1 搭建單機模式的PySpark開發環境 2 1 1 安裝JDK 2 1 2 安裝Anaconda 2 1 3 安裝Hadoop 2 1 4 安裝MySQL 2 1 5 安裝Hive 2 1 6 配置PySpark模塊 2 1 7 運行JupyterNotebook 2 2 搭建分散式模式的PySpark開發環境 2 2 1 安裝配置虛擬機 2 2 2 安裝Java 2 2 3 搭建Hadoop分散式集群 2 2 4 安裝MySQL資料庫 2 2 5 安裝Hive數據倉庫工具 2 2 6 搭建Spark完全分散式集群 2 2 7 安裝PyCham 2 2 8 安裝Python解釋器及PySpark模塊 2 3 Python函數式編程 2 3 1 Python常用數據結構 2 3 2 Python函數式編程基礎 小結 課後習題 第3章 基於PySpark的DataFrame操作 3 1 SparkSQL概述 3 1 1 SparkSQL起源與發展歷程 3 1 2 SparkSQL主要功能 3 1 3 SparkSQL數據核心抽象DataFrame 3 2 pyspark sql模塊 3 2 1 pyspark sql模塊簡介 3 2 2 pyspark sql模塊核心類 3 3 DataFrame基礎操作 3 3 1 創建DataFrame對象 3 3 2 DataFrame操作 3 3 3 DataFrame輸出操作 小結 實訓 實訓1 網站搜索熱詞統計分析 實訓2 大數據崗位招聘信息統計分析 課後習題 第4章 基於PySpark的流式數據 處理 4 1 SparkStreaming概述 4 1 1 流計算簡介 4 1 2 SparkStreaming基本概念 4 1 3 SparkStreaming工作原理 4 1 4 SparkStreaming運行機制 4 2 pyspark streaming模塊 4 2 1 pyspark streaming模塊簡介 4 2 2 pyspark streaming模塊核心類 4 2 3 DStream基礎操作 4 3 StructuredStreaming結構化流處理 4 3 1 StructuredStreaming概述 4 3 2 StructuredStreaming編程模型 4 3 3 StructuredStreaming基礎操作 4 3 4 StructuredStreaming編程步驟 小結 實訓 實訓1 使用SparkStreaming實現菜品價格實時計算 實訓2 使用SparkStreaming實時判別車輛所屬地 課後習題 第5章 基於PySpark的機器 學習庫 5 1 MLlib演算法 5 1 1 機器學習 5 1 2 MLlib 5 1 3 pyspark ml模塊 5 2 使用pyspark ml模塊的轉換器處理和轉換數據 5 2 1 數據載入及數據集劃分 5 2 2 數據降維 5 2 3 數據標準化 5 2 4 數據類型轉換 5 3 pyspark ml模塊的評估器和模型評估 5 3 1 使用PySpark構建並評估分類模型 5 3 2 使用PySpark構建並評估回歸模型 5 3 3 使用PySpark構建並評估聚類模型 5 3 4 使用PySpark構建並評估智能推薦模型 小結 實訓 實訓1 使用隨機森林模型預測是否批准用戶申請 實訓2 使用回歸模型實現房價預測 課後習題 第6章 案例分析:基於PySpark的網路招聘信息的職業類型劃分 6 1 需求與架構分析 6 1 1 業務需求分析與技術選型 6 1 2 系統架構分析 6 2 數據探索 6 2 1 數據說明 6 2 2 數據讀取 6 2 3 重複數據與空值探索 6 2 4 異常數據探索 6 3 數據預處理 6 3 1 數據清洗 6 3 2 中文分詞與去停用詞 6 3 3 詞特徵向量化 6 4 模型構建與評估 6 4 1 LDA演算法簡介 6 4 2 LDA模型構建與評估 6 4 3 構建LDA模型 6 5 製作詞雲圖 小結 第7章 案例分析:基於PySpark的信用貸款風險分析 7 1 需求與架構分析 7 1 1 業務需求分析 7 1 2 系統架構分析 7 2 數據探索 7 2 1 數據說明 7 2 2 建立數據倉庫並導入數據 7 2 3 用戶信息完善情況與逾期率的關係探索 7 2 4 用戶信息修改情況與逾期率的關係探索 7 2 5 用戶借款月份與逾期率的關係探索 7 3 數據預處理 7 3 1 計算用戶信息缺失個數及借款月份構建新特徵 7 3 2 用戶更新信息重建 7 3 3 用戶登錄信息重建 7 3 4 分類數據預處理 7 3 5 字元串欄位編碼處理 7 3 6 分類數據重編碼 7 3 7 缺失值處理 7 4 模型構建與評估 7 4 1 了解GBTs演算法 7 4 2 構建GBTs模型 7 4 3 評估GBTs模型 7 5 部署和提交PySpark應用程序 7 5 1 打包PySpark應用程序 7 5 2 詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。 |