大數據採集與預處理技術 夏國清 洪洲 陳統 9787313301697 【台灣高等教育出版社】

圖書均為代購,正常情形下,訂後約兩周可抵台。
物品所在地:中國大陸
原出版社:上海交通大學
NT$381
商品編號:
供貨狀況: 尚有庫存

此商品參與的優惠活動

加入最愛
商品介紹
*完成訂單後正常情形下約兩周可抵台
*本賣場提供之資訊僅供參考,以到貨標的為正確資訊。
印行年月:202402*若逾兩年請先於私訊洽詢存貨情況,謝謝。
台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。
書名:大數據採集與預處理技術
ISBN:9787313301697
出版社:上海交通大學
著編譯者:夏國清 洪洲 陳統
頁數:245
所在地:中國大陸 *此為代購商品
書號:1647375
可大量預訂,請先連絡。

內容簡介

本書按照「理論+實戰」的形式編寫,將企業項目需求分解為單獨的任務,全面系統地講解了大數據採集與預處理的相關知識與技術。全書針對數據採集的不同來源,將知識內容分為五個項目,包括網路數據採集、分散式消息系統Kafka、實時資料庫採集工具Canal和Maxwell、ETL日誌採集技術棧以及ETL工具——Kettle。本書針對大數據採集與預處理的關鍵技術及其應用場景,從數據的採集、存儲和分析等多個方面介紹了大數據的數據處理流程,通過任務實例為讀者展示了如何有效地使用技術或工具。本書可作為大數據相關專業的教學用書,也可作為相關技術人員培訓或工作的參考用書。

目錄

項目一 網路數據採集
任務一 認識網路爬蟲
一、了解網路爬蟲
二、實現爬蟲的請求
三、任務實踐
任務二 解析數據
一、使用正則表達式解析
二、使用BeautifulSoup解析
三、使用XPath解析
四、使用PyQuery解析
五、任務實踐
任務三 採集動態渲染網頁的數據
一、準備Selenium的環境
二、聲明瀏覽器對象
三、訪問頁面及獲取HTML源碼
四、查找網頁元素
五、操作網頁元素
六、獲取元素的屬性及文本
七、延時等待
八、任務實踐
任務四 使用Scrapy框架
一、Scrapy框架簡介
二、安裝Scrapy包與配置開發環境
三、創建Scrapy項目
四、Scrapy項目開發入門
五、Scrapy與Selenium的結合
六、任務實踐
項目二 分散式消息系統Kafka
任務一 JDK和ZooKeeper配置安裝
一、JDK配置安裝
二、ZooKeeper配置安裝
三、任務實踐
任務二 Kafka集群配置安裝
一、Kafka下載
二、修改配置文件
三、分發安裝包
四、啟動和停止集群
五、任務實踐
任務三 Kafka基本原理的掌握和使用
一、Kafka基本原理
二、Kafka 命令行
三、Java API
四、Kafka Streams
五、任務實踐
項目三 實時資料庫採集工具Canal和Maxwell
任務一 安裝MySQL資料庫
一、認識MySQL資料庫
二、MySQL資料庫在數據採集中的應用
三、任務實踐
任務二 開啟Binlog和數據準備
一、MySQL的Binlog
二、MySQL主從複製和Canal工作原理
三、任務實踐
任務三 Canal的下載和安裝
一、Canal是什麼
二、Canal的功能
三、任務實踐
任務四 實時數據監控測試之TCP模式
一、Canal中封裝的數據結構
二、任務實踐
任務五 實時數據監控測試之Kafka模式
一、Canal-Kafka模式
二、任務實踐
任務六 Maxwell初始化和進程啟動
一、安裝和配置Maxwell
二、任務實踐
項目四 ELK日誌採集技術棧
任務一 Elasticsearch集群安裝部署
一、創建普通用戶
二、為普通用戶添加sudo許可權
三、下載並上傳安裝包
四、修改配置文件
五、分發安裝包至其他伺服器
六、修改系統配置
七、啟動Elasticsearch服務
八、任務實踐
任務二 elasticsearch-head和Kibana的安裝
一、安裝elasticsearch-head插件
二、安裝Kibana
三、任務實踐
任務三 Elasticsearch的Index和Document操作
一、使用Kibana操作Index和Document
二、任務實踐
任務四 Elasticsearch的查詢操作
一、使用Kibana實現對文檔的查詢操作
二、任務實踐
任務五 Logstash插件的安裝和使用
一、安裝Logstash
二、stdin標準輸入和stdout標準輸出
三、監控日誌文件變化
四、JDBC插件
五、syslog插件
六、filter插件
七、使用grok收集Nginx日誌數據
八、output插件
九、任務實踐
項目五 ETL工具——Kettle
任務一 Kettle入門
一、配置JAVA_HOME環境變數
二、解壓運行Kettle
三、認識Kettle界面
四、任務實踐
任務二 認識Kettle輸入組件
一、JSON組件
二、Table組件
三、自動生成記錄組件
四、任務實踐
任務三 認識Kettle輸出組件
一、文本文件輸出組件
二、表輸出組件
三、刪除組件
四、插入/更新組件
五、任務實踐
任務四 掌握Kettle整合Hadoop
一、Hadoop環境準備
二、Kettle整合Hadoop
三、Hadoop file input組件
四、Hadoop file output組件
五、任務實踐
任務五 掌握Kettle整合Hive
一、初始化數據
二、Kettle和Hive整合
三、從Hive中讀取數據
四、向Hive寫入數據
五、任務實踐
參考文獻
詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。
規格說明
運送方式
已加入購物車
已更新購物車
網路異常,請重新整理