大數據技術與應用-Hadoop和PySpark實現 周顯春 肖衡 9787302687436 【台灣高等教育出版社】

圖書均為代購,正常情形下,訂後約兩周可抵台。
物品所在地:中國大陸
原出版社:清華大學
大陸簡體正版圖書,訂購後正常情形下約兩周可抵台。
NT$381
商品編號: 9787302687436
供貨狀況: 尚有庫存

此商品參與的優惠活動

加入最愛
商品介紹
*書籍均為代購,我們向大陸付款發訂後即無法取消,為避免造成不必要的損失,
下訂前請慎重考慮!下訂前請慎重考慮!謝謝。

*完成訂單後正常情形下約兩周可抵台
*本賣場提供之資訊僅供參考,以到貨標的為正確資訊。
印行年月:202505*若逾兩年請先於客服中心或Line洽詢存貨情況,謝謝。
台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。
書名:大數據技術與應用-Hadoop和PySpark實現
ISBN:9787302687436
出版社:清華大學
著編譯者:周顯春 肖衡
頁數:287
所在地:中國大陸 *此為代購商品
書號:1737054
可大量預訂,請先連絡。

編輯推薦
本書以Python為基礎,深入講解HDFS分布式文件系統和PySpark3編程。該書基於Spark3 3以上版本,以特色案例為驅動,幫助讀者掌握Hadoop和PySpark的環境搭建與應用編程,實踐大數據應用,開啟智能未來。

內容簡介
本書以Python為基礎,深入講解HDFS分布式文件系統和PySpark3編程。全書共9章,內容包括Docker環境下Hadoop與Spark的配置、HDFS操作技巧、RDD編程方法、Spark SQL應用、Spark架構及運行機制、Pandas on Spark使用及Spark ML編程實踐。本書通過實際操作案例,幫助讀者掌握Hadoop和PySpark的環境搭建與應用編程,附帶豐富的教學資源,包括教案、教學課件、練習題、源代碼、數據集及核心知識點視頻講解及實驗指導,為讀者提供強大支持。
本書適合作為全國高等學校計算機、軟件工程、數據科學與大數據技術、人工智能等專業的教材,同時對大數據應用開發者和技術從業者亦有參考價值。

目錄

第1章 大數據技術概述
1 1 大數據技術的發展背景
1 2 大數據核心概念和關鍵技術
1 2 1 大數據核心概念
1 2 2 大數據關鍵技術
1 3 代表性大數據分布式處理框架
1 3 1 Hadoop
1 3 2 Spark
1 3 3 Flink
1 3 4 常見計算框架的性能對比
本章 小結
習題1
實驗1 Linux常用命令的使用
第2章 基於Docker的Hadoop集群搭建
2 1 Docker基礎知識
2 1 1 Docker的核心概念
2 1 2 Docker的常見操作
2 1 3 Docker網絡
2 2 Docker環境的準備
2 2 1 CentOS鏡像下載
2 2 2 創建與訪問容器
2 3 Hadoop集群的搭建
2 3 1 集群部署模式
2 3 2 集群規劃
2 3 3 前置軟件的安裝和配置
2 3 4 Hadoop的安裝與配置
2 4 集群的運行與驗證
2 4 1 集群的啟動與關閉
2 4 2 Web頁面監控
本章 小結
習題2
實驗2 基於Docker的Hadoop集群搭建
第3章 大數據存儲與查詢
3 1 HDFS概述
3 2 HDFS運行架構與原理
3 2 1 存儲架構
3 2 2 讀寫原理
3 3 HDFS Shell操作
3 3 1 HDFS Shell介紹
3 3 2 HDFS Shell常用操作實踐
3 4 HDFS的Python API操作
3 4 1 pyhdfs API操作概述
3 4 2 HDFS的Python API常用操作實踐
3 5 HBase
3 5 1 HBase的重要特點和概念
3 5 2 HBase集群部署
3 5 3 HBase Shell基本操作
3 5 4 HBase數據查詢
本章 小結
習題3
實驗3 HDFS存儲和HBase查詢
第4章 基於Docker的Spark集群搭建與使用
4 1 Spark集群的搭建
4 1 1 Scala的下載與安裝
4 1 2 Spark的下載與安裝
4 1 3 Spark集群配置
4 1 4 其他依賴包的安裝與配置
4 1 5 生成Spark集群鏡像
4 2 集群運行
4 2 1 創建容器
4 2 2 啟動Spark集群
4 2 3 啟動Spark History Server
4 2 4 關閉集群
4 3 Spark部署
4 3 1 Spark部署分類
4 3 2 Spark常用部署
4 3 3 使用spark-submit提交作業
4 3 4 可能出現的配置問題
本章 小結
習題4
實驗4 基於Docker的Spark集群搭建
第5章 Spark概述
5 1 Spark的定義
5 1 1 Spark的主要發展階段
5 1 2 Spark的生態系統
5 1 3 應用場景
5 2 Spark的架構與運行原理
5 2 1 基本概念
5 2 2 架構設計
5 2 3 運行流程
5 3 基於Jupyter Notebook的PySpark開發平臺搭建
5 3 1 配置Jupyter Notebook遠程訪問
5 3 2 基於Jupyter Notebook的PySpark環境啟動及驗證
5 3 3 基於Jupyter Notebook的PySpark應用程序的開發
5 4 基於PyCharm的PySpark開發平臺搭建
5 4 1 創建與配置SFTP連接
5 4 2 部署應用程序
5 4 3 開發平臺的驗證
5 4 4 可能出現的問題
本章 小結
習題5
實驗5 基於Jupyter Notebook的PySpark開發平臺的搭建
第6章 Spark RDD
6 1 RDD的運作方式
6 1 1 RDD的概念
6 1 2 RDD的特性
6 1 3 RDD之間的依賴關係
6 1 4 階段劃分
6 1 5 RDD的運行過程
6 2 RDD的創建
6 2 1 並行化創建RDD
6 2 2 讀取外部數據集
6 3 RDD操作
6 3 1 RDD的分類
6 3 2 RDD的轉換
6 3 3 RDD的動作
6 3 4 鍵值對RDD
6 3 5 綜合案例
6 4 文件讀寫
本章 小結
習題6
實驗6 Spark RDD編程實踐
第7章 Spark SQL
7 1 Spark SQL概述
7 2 DataFrames的創建與保存
7 2 1 createDataFrame函數
7 2 2 讀寫外部文件
7 2 3 讀寫數據庫
7 3 DataFrame的常用操作
7 3 1 基本操作
7 3 2 複雜操作
7 3 3 自定義函數
7 4 DataFrame與RDD的相互轉換
7 4 1 DataFrame轉RDD
7 4 2 RDD轉DataFrame
本章 小結
習題7
實驗7 Spark SQL編程實踐
第8章 Pandas API on Spark編程
8 1 Pandas on Spark基礎
8 1 1 Pandas on Spark產生的背景
8 1 2 Pandas on Spark的數據類型
8 1 3 Pandas on Spark的數據結構
8 2 Pandas API on Spark
8 2 1 讀取/保存函數
8 2 2 常用屬性
8 2 3 索引
8 2 4 常用方法
8 2 5 分組
8 2 6 Spark-related函數
8 2 7 Pandas-on-Spark specific
8 2 8 Plotting pandas on pyspark
8 3 不同DataFrame的轉換
8 3 1 Pandas on Spark DataFrame
8 3 2 Spark DataFrame
8 4 綜合案例——酒店預訂需求分析
8 4 1 需求分析
8 4 2 數據讀取及字段理解
8 4 3 數據預處理
8 4 4 用戶數據探索
本章 小結
習題8
實驗8 Pandas API on Spark編程實踐
第9章 PySpark ML
9 1 Spark ML概述

前言/序言
本書旨在幫助讀者全面瞭解大數據技術和Spark應用,系統地介紹了大數據技術的核心概念、關鍵技術和工具,並深入探討了Spark在大數據處理和分析中的應用。通過閱讀本書,讀者將獲得搭建大數據處理環境,利用Hadoop、Spark等工具進行數據處理和分析的實際能力。
全書9章 內容介紹如下。
第1章 大數據技術概述。介紹大數據技術的背景和發展,包括大數據的概念、關鍵技術和代表性工具,為讀者建立起對大數據技術的整體認識。
第2章 基於Docker的Hadoop集群搭建。詳細介紹如何使用Docker構建Hadoop集群。從Docker的基本概念開始,逐步引導讀者完成CentOS鏡像的下載、容器的創建與配置,並實現基於Docker的Hadoop集群的安裝和驗證。
第3章 大數據存儲與查詢。詳細講解HDFS和HBase的基礎及應用,涉及基本概念、架構原理和實際操作,如HDFS Shell和Python API使用,以及HBase的部署、操作和數據查詢。
第4章 基於Docker的Spark集群搭建與使用。重點介紹如何安裝和配置Spark集群。包括Scala和Spark的下載與安裝、環境變量的配置,以及集群的啟動、應用程序的提交和Web監控頁面的使用。
第5章 Spark概述。解釋什麼是Spark及其在大數據處理中的重要性; 探討了Spark的生態系統、架構和運行原理,幫助讀者全面瞭解Spark的核心概念和內部工作原理。
第6章 Spark RDD。詳細解析RDD的基礎概念、特性、依賴關係和運行機制,講解RDD的創建方法、轉換與動作操作,最後通過案例分析和文件操作加深理解。
第7章 Spark SQL。討論Spark SQL的基本概念和執行原理。介紹如何創建和操作DataFrame,包括字段計算、條件查詢、數據排序、數據去重和數據分組統計,還包括數據庫的讀寫操作和RDD與DataFrame之間的相互轉換。
第8章 Pandas API on Spark編程。從基礎概念、數據類型和結構入手,詳細介紹其讀寫功能、索引處理、常用方法及數據分組等操作。探討Pandas與Spark DataFrame之間的轉換技巧,並通過酒店預訂需求分析案例,展示數據處理和用戶數據探索的實際應用。
第9章 PySpark ML。介紹Spark ML機器學習庫的基本概念和使用方法。包括基本數據類型的介紹、基本統計分析的實現、機器學習流水線的構建、特徵工程的應用,以及分類、回歸、聚類和推薦模型的訓練、評估和參數調優。
本書巧妙地融合了Pandas on Spark的前沿技術和Spark ML的實用應用,為讀者搭建了一個理論與實踐交互的學習平臺,打通了大數據與機器學習領域的深度理解之路。本書創新性地引入Pandas on Spark,為Python開發者提供了處理大規模數據的強大工具,極大地降低了大數據處理的學習門檻。在內容安排上,本書不僅僅滿足於傳授理論知識,還通過一系列精心設計的實驗和實際案例,引領讀者實踐,從而掌握每項技術的精髓,提升解決複雜問題的能力。這樣的實踐經驗,確保讀者在吸收最新技術知識的同時,能夠全方位地提升自己在數據分析領域的實際操作能力和競爭力。
全書由三亞學院周顯春負責內容規劃和統稿編寫,肖衡、譚瑞梅進行修訂,共同實現特色課程立體化教學資源建設項目。還有很多教師和學生對本書提出了許多寶貴意見,在此一併向他們表示衷心的感謝。本書的出版得到了三亞學院產品思維導向特色課程改革項目(SYJKCF2023147)、2022年度海南省高等學校教育教學改革研究一般項目(Hnjg2022102)、三亞學院學科特色課程群試點建設項目(SYJZKXK202315)、三亞學院優勢專業建設項目(SYZUS202203)、三亞學院一流本科專業特色建設資助項目(SYZZZ202212)的資助。
因編者水平有限,書中難免存在不足之處,懇請讀者批評指正。
作者2025年3月

詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於客服中心或Line或本社留言板留言,我們即儘速上架。

規格說明
大陸簡體正版圖書,訂購後正常情形下約兩周可抵台。
運送方式
已加入購物車
已更新購物車
網路異常,請重新整理