PySpark大數據分析與應用 戴剛 張良均 9787115634900 【台灣高等教育出版社】

圖書均為代購,正常情形下,訂後約兩周可抵台。
物品所在地:中國大陸
原出版社:人民郵電
NT$444
商品編號:
供貨狀況: 尚有庫存

此商品參與的優惠活動

加入最愛
商品介紹
*完成訂單後正常情形下約兩周可抵台
*本賣場提供之資訊僅供參考,以到貨標的為正確資訊。
印行年月:202404*若逾兩年請先於私訊洽詢存貨情況,謝謝。
台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。
書名:PySpark大數據分析與應用
ISBN:9787115634900
出版社:人民郵電
著編譯者:戴剛 張良均
頁數:275
所在地:中國大陸 *此為代購商品
書號:1647384
可大量預訂,請先連絡。

內容簡介

本書以Python作為開發語言,系統介紹PySpark開發環境搭建流程及基於PySpark進行大數據分析的相關知識。本書條理清晰、重點突出,理論敘述循序漸進、由淺入深。本書共7章,第1-5章包括PySpark大數據分析概述、PySpark安裝配置、基於PySpark的DataFrame操作、基於PySpark的流式數據處理、基於PySpark的機器學習庫,

內容簡介

注重理論與實踐相結合,通過典型示例強化PySpark在大數據分析中的實際應用;第6、7章通過基於PySpark的網路招聘信息的職業類型劃分和基於PySpark的信用貸款風險分析兩個完整的案例實戰,結合前5章的PySpark編程知識,實現完整的大數據分析過程。本書大部分章包含實訓和課後習題,讀者通過練習和操作實踐,能夠鞏固所學的內容。 本書可作為高校數據科學或大數據相關專業的教材,也可作為機器學習愛好者的自學用書。

目錄

第1章 PySpark大數據分析概述
1 1 大數據分析概述
1 1 1 大數據的概念
1 1 2 大數據分析的概念
1 1 3 大數據分析的流程
1 1 4 大數據分析的應用場景
1 1 5 大數據技術體系
1 2 Spark大數據技術框架
1 2 1 Spark簡介
1 2 2 Spark特點
1 2 3 Spark運行架構與流程
1 2 4 SparkRDD
1 2 5 Spark生態圈
1 3 PySpark大數據分析
1 3 1 PySpark簡介
1 3 2 PySpark子模塊
小結
課後習題
第2章 PySpark安裝配置
2 1 搭建單機模式的PySpark開發環境
2 1 1 安裝JDK
2 1 2 安裝Anaconda
2 1 3 安裝Hadoop
2 1 4 安裝MySQL
2 1 5 安裝Hive
2 1 6 配置PySpark模塊
2 1 7 運行JupyterNotebook
2 2 搭建分散式模式的PySpark開發環境
2 2 1 安裝配置虛擬機
2 2 2 安裝Java
2 2 3 搭建Hadoop分散式集群
2 2 4 安裝MySQL資料庫
2 2 5 安裝Hive數據倉庫工具
2 2 6 搭建Spark完全分散式集群
2 2 7 安裝PyCham
2 2 8 安裝Python解釋器及PySpark模塊
2 3 Python函數式編程
2 3 1 Python常用數據結構
2 3 2 Python函數式編程基礎
小結
課後習題
第3章 基於PySpark的DataFrame操作
3 1 SparkSQL概述
3 1 1 SparkSQL起源與發展歷程
3 1 2 SparkSQL主要功能
3 1 3 SparkSQL數據核心抽象DataFrame
3 2 pyspark sql模塊
3 2 1 pyspark sql模塊簡介
3 2 2 pyspark sql模塊核心類
3 3 DataFrame基礎操作
3 3 1 創建DataFrame對象
3 3 2 DataFrame操作
3 3 3 DataFrame輸出操作
小結
實訓
實訓1 網站搜索熱詞統計分析
實訓2 大數據崗位招聘信息統計分析
課後習題
第4章 基於PySpark的流式數據
處理
4 1 SparkStreaming概述
4 1 1 流計算簡介
4 1 2 SparkStreaming基本概念
4 1 3 SparkStreaming工作原理
4 1 4 SparkStreaming運行機制
4 2 pyspark streaming模塊
4 2 1 pyspark streaming模塊簡介
4 2 2 pyspark streaming模塊核心類
4 2 3 DStream基礎操作
4 3 StructuredStreaming結構化流處理
4 3 1 StructuredStreaming概述
4 3 2 StructuredStreaming編程模型
4 3 3 StructuredStreaming基礎操作
4 3 4 StructuredStreaming編程步驟
小結
實訓
實訓1 使用SparkStreaming實現菜品價格實時計算
實訓2 使用SparkStreaming實時判別車輛所屬地
課後習題
第5章 基於PySpark的機器
學習庫
5 1 MLlib演算法
5 1 1 機器學習
5 1 2 MLlib
5 1 3 pyspark ml模塊
5 2 使用pyspark ml模塊的轉換器處理和轉換數據
5 2 1 數據載入及數據集劃分
5 2 2 數據降維
5 2 3 數據標準化
5 2 4 數據類型轉換
5 3 pyspark ml模塊的評估器和模型評估
5 3 1 使用PySpark構建並評估分類模型
5 3 2 使用PySpark構建並評估回歸模型
5 3 3 使用PySpark構建並評估聚類模型
5 3 4 使用PySpark構建並評估智能推薦模型
小結
實訓
實訓1 使用隨機森林模型預測是否批准用戶申請
實訓2 使用回歸模型實現房價預測
課後習題
第6章 案例分析:基於PySpark的網路招聘信息的職業類型劃分
6 1 需求與架構分析
6 1 1 業務需求分析與技術選型
6 1 2 系統架構分析
6 2 數據探索
6 2 1 數據說明
6 2 2 數據讀取
6 2 3 重複數據與空值探索
6 2 4 異常數據探索
6 3 數據預處理
6 3 1 數據清洗
6 3 2 中文分詞與去停用詞
6 3 3 詞特徵向量化
6 4 模型構建與評估
6 4 1 LDA演算法簡介
6 4 2 LDA模型構建與評估
6 4 3 構建LDA模型
6 5 製作詞雲圖
小結
第7章 案例分析:基於PySpark的信用貸款風險分析
7 1 需求與架構分析
7 1 1 業務需求分析
7 1 2 系統架構分析
7 2 數據探索
7 2 1 數據說明
7 2 2 建立數據倉庫並導入數據
7 2 3 用戶信息完善情況與逾期率的關係探索
7 2 4 用戶信息修改情況與逾期率的關係探索
7 2 5 用戶借款月份與逾期率的關係探索
7 3 數據預處理
7 3 1 計算用戶信息缺失個數及借款月份構建新特徵
7 3 2 用戶更新信息重建
7 3 3 用戶登錄信息重建
7 3 4 分類數據預處理
7 3 5 字元串欄位編碼處理
7 3 6 分類數據重編碼
7 3 7 缺失值處理
7 4 模型構建與評估
7 4 1 了解GBTs演算法
7 4 2 構建GBTs模型
7 4 3 評估GBTs模型
7 5 部署和提交PySpark應用程序
7 5 1 打包PySpark應用程序
7 5 2
詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。
規格說明
運送方式
已加入購物車
已更新購物車
網路異常,請重新整理