數據採集與預處理技術應用安俊秀唐聃柳源等 9787111733850 【台灣高等教育出版社】

Name: 數據採集與預處理技術應用 安俊秀 唐聃 柳源 等 9787111733850 【台灣高等教育出版社】
Brand: abooksthep
Price: 381.0 TWD
Availability: InStock

圖書均為代購，正常情形下，訂後約兩周可抵台。
物品所在地：中國大陸
原出版社：機械工業

NT$381

商品編號:

供貨狀況: 尚有庫存

加入最愛

商品介紹

*完成訂單後正常情形下約兩周可抵台。
*本賣場提供之資訊僅供參考，以到貨標的為正確資訊。
印行年月：202308*若逾兩年請先於私訊洽詢存貨情況，謝謝。
台灣(台北市)在地出版社，每筆交易均開具統一發票，祝您中獎最高1000萬元。
書名：數據採集與預處理技術應用
ISBN：9787111733850
出版社：機械工業
著編譯者：安俊秀唐聃柳源等
叢書名：面向新工科高等院校大數據專業系列教材
頁數：196
所在地：中國大陸 *此為代購商品
書號：1559177
可大量預訂，請先連絡。

內容簡介

本書重點介紹了數據採集和數據預處理的相關理論與技術。全書共9章，主要包括數據採集與預處理概述，大數據開發環境的搭建，使用Flume採集系統日誌數據，使用Kafka採集系統日誌數據，其他常用的系統日誌數據採集工具，使用網路爬蟲採集Web數據，Python數據預處理庫的使用，使用ETL工具Kettle進行數據預處理，以及其他常用的數據預處理工具。本書在第2章至第9章安排了豐富的實踐操作，實現了理論與實踐的有機結合，幫助讀者更好地學習和掌握數據採集與預處理的關鍵技術。本書可以作為高等院校大數據專業的大數據課程教材，也可以作為計算機相關專業的專業課或選修課教材，同時也可以作為從事大數據相關專業的工作人員的參考用書。

作者簡介

安俊秀，成都信息工程大學教授，碩士生導師。軟體自動生成與智能服務四川省重點實驗室學術帶頭人（領域知識本體和大數據方向），長期從事數據科學與大數據相關的研究與教學工作，發表相關論文40餘篇，主編雲計算與大數據方向專著或教材10餘部。是國家自然科學基金委通訊評審專家，四川省科技項目評審專家，成都市科技攻關計劃評審專家。

出版說明
前言
第1章數據採集與預處理概述
1 1 大數據簡介
1 1 1 數據的概念、類型、組織形式
1 1 2 大數據的概念、特點與作用
1 1 3 大數據的技術應用
1 2 數據分析簡介
1 2 1 數據分析的基本流程
1 2 2 數據分析的方法與技術
1 3 數據採集簡介
1 3 1 數據採集的三大方式及工具
1 3 2 數據採集的應用場景
1 4 數據預處理簡介
1 4 1 數據預處理的目的與意義
1 4 2 數據預處理的流程
1 4 3 數據預處理的工具介紹
習題
第2章大數據開發環境的搭建
2 1 安裝Python與JDK
2 1 1 Java和Python概述
2 1 2 Python的安裝與配置
2 1 3 JDK的安裝與配置
2 1 4 Python與Java的IDE介紹
2 2 MySQL資料庫的安裝與配置
2 2 1 SQL概述
2 2 2 安裝MySQL資料庫
2 2 3 MySQL資料庫的基本使用
2 3 Hadoop的安裝與配置
2 3 1 單節點環境
2 3 2 偽分散式環境
2 3 3 節點間免密通信
2 3 4 Hadoop的啟動和測試
2 4 在Hadoop集群上運行WordCount
2 4 1 運行Java版本WordCount實例
2 4 2 運行Python版本WordCount實例
習題
第3章使用Flume採集系統日誌數據
3 1 Flume概述
3 2 Flume的安裝運行
3 3 Flume的核心組件
3 3 1 Agent
3 3 2 Source
3 3 3 Sink
3 3 4 Channel
3 3 5 Event
3 4 Flume攔截器與選擇器
3 4 1 Flume內置攔截器
3 4 2 自定義攔截器
3 5 Flume負載均衡與故障轉移
3 6 實踐案例：使用Flume採集數據上傳到HDFS
習題
第4章使用Kafka採集系統日誌數據
4 1 Kafka概述
4 1 1 消息隊列
4 1 2 Kafka的特點
4 1 3 Kafka與Flume的區別
4 2 Kafka的安裝部署
4 2 1 集群規劃
4 2 2 安裝Zookeeper
4 2 3 安裝Kafka
4 3 Kafka的基本架構
4 3 1 Kafka的消息系統
4 3 2 Producer與Consumer
4 3 3 主題與分區
4 3 4 Broker與Kafka集群
4 3 5 Zookeeper在Kafka中的作用
4 4 實踐案例：使用Kafka採集本地日誌數據
4 5 實踐案例：Kafka與Flume結合採集日誌數據
習題
第5章其他常用的系統日誌數據採集工具
5 1 Scribe
5 1 1 Scribe簡介
5 1 2 Scribe的配置文件
5 1 3 實踐案例：使用Scribe採集系統日誌數據
5 2 Chukwa
5 2 1 Chukwa簡介
5 2 2 Chukwa架構與數據採集
5 2 3 實踐案例：使用Chukwa採集系統日誌數據
5 3 Splunk
5 3 1 Splunk概述
5 3 2 Splunk的安裝與基本使用
5 3 3 實踐案例：使用Splunk採集系統日誌數據
5 4 日誌易
5 4 1 日誌易的特點
5 4 2 註冊日誌易賬號
5 4 3 實踐案例：使用日誌易採集搜索本地日誌文件
5 5 Logstash
5 5 1 Logstash簡介
5 5 2 Logstash的工作原理
5 5 3 Logstash安裝與部署
5 5 4 實踐案例：使用Logstash採集並處理系統日誌數據
5 5 5 實踐案例：使用Logstash將數據導入Elasticsearch
5 6 Fluentd
5 6 1 Fluentd簡介
5 6 2 Fluentd的安裝與配置
5 6 3 Fluentd的基本命令
5 6 4 實踐案例：使用Fluentd採集系統日誌數據
習題
第6章使用網路爬蟲採集Web數據
6 1 網路爬蟲概述
6 1 1 網路爬蟲的基本原理
6 1 2 網路爬蟲的類型
6 2 網路爬蟲基礎
6 2 1 網路爬蟲的基本爬取方式
6 2 2 使用正則表達式進行字元串匹配
6 2 3 使用解析庫解析網頁
6 2 4 Ajax數據的爬取
6 2 5 使用selenium抓取動態渲染頁面
6 3 常見的網路爬蟲框架
6 3 1 Scrapy框架
6 3 2 WebMagic框架
6 3 3 Crawler4j框架
6 3 4 WebCollector框架
6 4 實踐案例：使用Scrapy爬取電商網站數據
習題
第7章 Python數據預處理庫的使用
7 1 Python與數據分析
7 1 1 Python的特點
7 1 2 為何使用Python進行數據分析
7 2 NumPy：數組與向量計算
7 3 Pandas：數據結構化操作
7 4 SciPy：科學化計算
7 5 Matplotlib：數據可視化
7 6 實踐案例：使用Python預處理旅遊路線數據
習題
第8章使用ETL工具Kettle進行數據預處理
8 1 Kettle概述
8 2 Kettle的安裝與配置
8 3 Kettle的基本使用
8 3 1 Kettle的使用界面
8 3 2 新建轉換與任務
8 3 3 數據獲取
8 3 4 數據清洗與轉換
8 3 5 數據遷移和裝載
8 4 實踐案例：使用Kettle處理某電商網站數據
習題
第9章其他常用的數據預處理工具
9 1 Pig
9 1 1 Pig概述
9 1 2 Pig的安裝和配置
9 1 3 Pig Latin的基本概念
9 1 4 使用Pig進行數據預
詳細資料或其他書籍請至台灣高等教育出版社查詢，查後請於PChome商店街私訊告知ISBN或書號，我們即儘速上架。