*完成訂單後正常情形下約兩周可抵台。 *本賣場提供之資訊僅供參考,以到貨標的為正確資訊。 印行年月:202308*若逾兩年請先於私訊洽詢存貨情況,謝謝。 台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。 書名:數據採集與預處理技術應用 ISBN:9787111733850 出版社:機械工業 著編譯者:安俊秀 唐聃 柳源 等 叢書名:面向新工科高等院校大數據專業系列教材 頁數:196 所在地:中國大陸 *此為代購商品 書號:1559177 可大量預訂,請先連絡。 內容簡介 本書重點介紹了數據採集和數據預處理的相關理論與技術。全書共9章,主要包括數據採集與預處理概述,大數據開發環境的搭建,使用Flume採集系統日誌數據,使用Kafka採集系統日誌數據,其他常用的系統日誌數據採集工具,使用網路爬蟲採集Web數據,Python數據預處理庫的使用,使用ETL工具Kettle進行數據預處理,以及其他常用的數據預處理工具。本書在第2章至第9章安排了豐富的實踐操作,實現了理論與實踐的有機結合,幫助讀者更好地學習和掌握數據採集與預處理的關鍵技術。 本書可以作為高等院校大數據專業的大數據課程教材,也可以作為計算機相關專業的專業課或選修課教材,同時也可以作為從事大數據相關專業的工作人員的參考用書。作者簡介 安俊秀,成都信息工程大學教授,碩士生導師。軟體自動生成與智能服務四川省重點實驗室學術帶頭人(領域知識本體和大數據方向),長期從事數據科學與大數據相關的研究與教學工作,發表相關論文40餘篇,主編雲計算與大數據方向專著或教材10餘部。是國家自然科學基金委通訊評審專家,四川省科技項目評審專家,成都市科技攻關計劃評審專家。目錄 出版說明前言 第1章 數據採集與預處理概述 1 1 大數據簡介 1 1 1 數據的概念、類型、組織形式 1 1 2 大數據的概念、特點與作用 1 1 3 大數據的技術應用 1 2 數據分析簡介 1 2 1 數據分析的基本流程 1 2 2 數據分析的方法與技術 1 3 數據採集簡介 1 3 1 數據採集的三大方式及工具 1 3 2 數據採集的應用場景 1 4 數據預處理簡介 1 4 1 數據預處理的目的與意義 1 4 2 數據預處理的流程 1 4 3 數據預處理的工具介紹 習題 第2章 大數據開發環境的搭建 2 1 安裝Python與JDK 2 1 1 Java和Python概述 2 1 2 Python的安裝與配置 2 1 3 JDK的安裝與配置 2 1 4 Python與Java的IDE介紹 2 2 MySQL資料庫的安裝與配置 2 2 1 SQL概述 2 2 2 安裝MySQL資料庫 2 2 3 MySQL資料庫的基本使用 2 3 Hadoop的安裝與配置 2 3 1 單節點環境 2 3 2 偽分散式環境 2 3 3 節點間免密通信 2 3 4 Hadoop的啟動和測試 2 4 在Hadoop集群上運行WordCount 2 4 1 運行Java版本WordCount實例 2 4 2 運行Python版本WordCount實例 習題 第3章 使用Flume採集系統日誌數據 3 1 Flume概述 3 2 Flume的安裝運行 3 3 Flume的核心組件 3 3 1 Agent 3 3 2 Source 3 3 3 Sink 3 3 4 Channel 3 3 5 Event 3 4 Flume攔截器與選擇器 3 4 1 Flume內置攔截器 3 4 2 自定義攔截器 3 5 Flume負載均衡與故障轉移 3 6 實踐案例:使用Flume採集數據上傳到HDFS 習題 第4章 使用Kafka採集系統日誌數據 4 1 Kafka概述 4 1 1 消息隊列 4 1 2 Kafka的特點 4 1 3 Kafka與Flume的區別 4 2 Kafka的安裝部署 4 2 1 集群規劃 4 2 2 安裝Zookeeper 4 2 3 安裝Kafka 4 3 Kafka的基本架構 4 3 1 Kafka的消息系統 4 3 2 Producer與Consumer 4 3 3 主題與分區 4 3 4 Broker與Kafka集群 4 3 5 Zookeeper在Kafka中的作用 4 4 實踐案例:使用Kafka採集本地日誌數據 4 5 實踐案例:Kafka與Flume結合採集日誌數據 習題 第5章 其他常用的系統日誌數據採集工具 5 1 Scribe 5 1 1 Scribe簡介 5 1 2 Scribe的配置文件 5 1 3 實踐案例:使用Scribe採集系統日誌數據 5 2 Chukwa 5 2 1 Chukwa簡介 5 2 2 Chukwa架構與數據採集 5 2 3 實踐案例:使用Chukwa採集系統日誌數據 5 3 Splunk 5 3 1 Splunk概述 5 3 2 Splunk的安裝與基本使用 5 3 3 實踐案例:使用Splunk採集系統日誌數據 5 4 日誌易 5 4 1 日誌易的特點 5 4 2 註冊日誌易賬號 5 4 3 實踐案例:使用日誌易採集搜索本地日誌文件 5 5 Logstash 5 5 1 Logstash簡介 5 5 2 Logstash的工作原理 5 5 3 Logstash安裝與部署 5 5 4 實踐案例:使用Logstash採集並處理系統日誌數據 5 5 5 實踐案例:使用Logstash將數據導入Elasticsearch 5 6 Fluentd 5 6 1 Fluentd簡介 5 6 2 Fluentd的安裝與配置 5 6 3 Fluentd的基本命令 5 6 4 實踐案例:使用Fluentd採集系統日誌數據 習題 第6章 使用網路爬蟲採集Web數據 6 1 網路爬蟲概述 6 1 1 網路爬蟲的基本原理 6 1 2 網路爬蟲的類型 6 2 網路爬蟲基礎 6 2 1 網路爬蟲的基本爬取方式 6 2 2 使用正則表達式進行字元串匹配 6 2 3 使用解析庫解析網頁 6 2 4 Ajax數據的爬取 6 2 5 使用selenium抓取動態渲染頁面 6 3 常見的網路爬蟲框架 6 3 1 Scrapy框架 6 3 2 WebMagic框架 6 3 3 Crawler4j框架 6 3 4 WebCollector框架 6 4 實踐案例:使用Scrapy爬取電商網站數據 習題 第7章 Python數據預處理庫的使用 7 1 Python與數據分析 7 1 1 Python的特點 7 1 2 為何使用Python進行數據分析 7 2 NumPy:數組與向量計算 7 3 Pandas:數據結構化操作 7 4 SciPy:科學化計算 7 5 Matplotlib:數據可視化 7 6 實踐案例:使用Python預處理旅遊路線數據 習題 第8章 使用ETL工具Kettle進行數據預處理 8 1 Kettle概述 8 2 Kettle的安裝與配置 8 3 Kettle的基本使用 8 3 1 Kettle的使用界面 8 3 2 新建轉換與任務 8 3 3 數據獲取 8 3 4 數據清洗與轉換 8 3 5 數據遷移和裝載 8 4 實踐案例:使用Kettle處理某電商網站數據 習題 第9章 其他常用的數據預處理工具 9 1 Pig 9 1 1 Pig概述 9 1 2 Pig的安裝和配置 9 1 3 Pig Latin的基本概念 9 1 4 使用Pig進行數據預 詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。 |