數據採集與預處理 (第2版) 林子雨 9787115657282 【台灣高等教育出版社】

圖書均為代購,正常情形下,訂後約兩周可抵台。
物品所在地:中國大陸
原出版社:人民郵電
大陸簡體正版圖書,訂購後正常情形下約兩周可抵台。
NT$444
商品編號: 9787115657282
供貨狀況: 尚有庫存

此商品參與的優惠活動

加入最愛
商品介紹
*完成訂單後正常情形下約兩周可抵台
*本賣場提供之資訊僅供參考,以到貨標的為正確資訊。
印行年月:202502*若逾兩年請先於客服中心或Line洽詢存貨情況,謝謝。
台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。
書名:數據採集與預處理 (第2版)
ISBN:9787115657282
出版社:人民郵電
著編譯者:林子雨
頁數:284
所在地:中國大陸 *此為代購商品
書號:1710891
可大量預訂,請先連絡。

內容簡介

本書詳細闡述了大數據領域數據採集與預處理的相關理論和技術。全書共8章,內容包括概述、大數據實驗環境搭建、網絡數據採集、分散式消息系統Kafka、日誌採集系統Flume、數據倉庫中的數據集成、ETL工具Kettle、使用pandas進行數據清洗。本書包含豐富的實踐操作和應用案例,以幫助讀者更好地學習和掌握數據採集與預處理的關鍵技術。 本書可以作為高等院校大數據專業的大數據課程教材,也可供相關技術人員參考。

作者簡介

林子雨(1978—),男,博士,廈門大學計算機科學系助理教授,廈門大學雲計算與大數據研究中心創始成員,廈門大學資料庫實驗室負責人,中國計算機學會資料庫專委會委員,中國計算機學會信息系統專委會委員。於2001年獲得福州大學水利水電專業學士學位,2005年獲得廈門大學計算機專業碩士學位,2009年獲得北京大學計算機專業博士學位。中國高校首個「數字教師」提出者和建設者,2009年至今,「數字教師」大平台累計向網絡免費發布超過100萬字高價值的教學和科研資料,累計網絡訪問量超過100萬次。 主要研究方向為資料庫、數據倉庫、數據挖掘、大數據和雲計算,發表期刊和會議學術論文多篇,並作為課題組負責人承擔了國家自然科學基金和福建省自然科學基金項目。曾作為志願者翻譯了Google Spanner、BigTable和《Architecture of a Database System》等大量英文學術資料,與廣大網友分享,深受歡迎。2013年在廈門大學開設大數據課程,並因在教學領域的突出貢獻和學生的認可,成為2013年度廈門大學教學類獎教金獲得者。

目錄

第1章 概述
1 1 數據
1 1 1 數據的概念
1 1 2 數據的類型
1 1 3 數據的組織形式
1 1 4 數據的價值
1 1 5 數據爆炸
1 2 數據分析過程
1 3 數據採集與預處理的任務
1 4 數據採集
1 4 1 數據採集的概念
1 4 2 數據採集的三大要點
1 4 3 數據採集的數據源
1 4 4 數據採集方法
1 5 數據清洗
1 5 1 數據清洗的應用領域
1 5 2 數據清洗的實現方式
1 5 3 數據清洗的內容
1 5 4 數據清洗的注意事項
1 5 5 數據清洗的基本流程
1 5 6 數據清洗的評價標準
1 6 數據集成
1 7 數據轉換
1 7 1 數據轉換策略
1 7 2 平滑處理
1 7 3 規範化處理
1 8 數據歸約
1 9 數據脫敏
1 9 1 數據脫敏原則
1 9 2 數據脫敏方法
1 10 本章小結
1 11 習題
第2章 大數據實驗環境搭建
2 1 Linux操作系統的安裝和使用
2 1 1 下載安裝文件
2 1 2 Linux操作系統的安裝方式
2 1 3 安裝Linux虛擬機
2 1 4 創建hadoop用戶
2 1 5 在Windows操作系統和Linux虛擬機之間互相複製文件
2 1 6 使用FTP實現Windows和Linux之間的文件傳輸
2 1 7 vim編輯器的安裝和使用
2 1 8 設置中文輸入法
2 1 9 常用的Linux命令
2 1 10 文件解壓
2 1 11

目錄

的許可權
2 1 12 更新APT
2 1 13 Linux操作系統的一些使用技巧
2 2 Python的安裝和使用
2 2 1 Python簡介
2 2 2 Python的安裝
2 2 3 Python的基本使用方法
2 2 4 Python基礎語法知識
2 2 5 Python第三方模塊的安裝
2 3 JDK的安裝
2 4 Hadoop的安裝和使用
2 4 1 Hadoop簡介
2 4 2 安裝Hadoop前的準備工作
2 4 3 安裝Hadoop的3種模式
2 4 4 下載Hadoop安裝文件
2 4 5 偽分散式模式配置
2 4 6 分散式文件系統HDFS
2 4 7 HDFS的基本使用方法
2 5 MySQL資料庫的安裝和使用
2 5 1 關係資料庫
2 5 2 關係資料庫標準語言SQL
2 5 3 安裝MySQL
2 5 4 MySQL資料庫的使用方法
2 5 5 使用Python操作MySQL資料庫
2 6 MongoDB的安裝和使用
2 6 1 MongoDB簡介
2 6 2 安裝MongoDB
2 6 3 MongoDB基礎操作
2 6 4 使用Python操作MongoDB
2 7 Redis的安裝和使用
2 7 1 Redis簡介
2 7 2 安裝Redis
2 7 3 Redis操作實例
2 7 4 使用Python操作Redis資料庫
2 8 本章小結
2 9 習題
實驗1 熟悉MySQL和HDFS的操作
第3章 網絡數據採集
3 1 網絡爬蟲概述
3 1 1 網絡爬蟲的定義及工作原理
3 1 2 網絡爬蟲的類型
3 1 3 反爬蟲機制
3 1 4 爬取策略制訂
3 2 網頁基礎知識
3 2 1 超文本和HTML
3 2 2 HTTP
3 3 用Python實現HTTP請求
3 3 1 urllib模塊
3 3 2 urllib3模塊
3 3 3 requests模塊
3 4 定製requests
3 4 1 傳遞URL參數
3 4 2 定製請求頭
3 4 3 網絡超時處理
3 5 解析網頁
3 5 1 BeautifulSoup簡介
3 5 2 BeautifulSoup四大對象
3 5 3 遍歷文檔樹
3 5 4 搜索文檔樹
3 5 5 CSS選擇器
3 6 綜合實例
3 6 1 實例1:採集網頁數據保存到文本文件
3 6 2 實例2:採集網頁數據保存到MySQL資料庫
3 6 3 實例3:採集網頁數據保存到MongoDB資料庫
3 6 4 實例4:採集網頁數據保存到Redis資料庫
3 7 Scrapy框架
3 7 1 Scrapy框架概述
3 7 2 XPath語言
3 7 3 Scrapy框架應用實例
3 8 通過JSON介面爬取網站數據
3 8 1 為什麼選擇JSON介面
3 8 2 通過JSON介面爬取數據的步驟
3 8 3 實例
3 9 本章小結
3 10 習題
實驗2 網絡爬蟲初級實踐
第4章 分散式消息系統Kafka
4 1 Kafka簡介
4 1 1 Kafka的特性
4 1 2 Kafka的主要應用場景
4 1 3 Kafka的消息傳遞模式
4 2 Kafka在大數據生態系統中的作用
4 3 Kafka和Flume的區別與聯繫
4 4 Kafka相關概念
4 5 Kafka的安裝和使用
4 5 1 安裝Kafka
4 5 2 使用Kafka
4 6 使用Python操作Kafka
4 7 Kafka與MySQL的組合使用
4 8 Kafka採集數據保存到MongoDB中
4 8 1 任務描述
4 8 2 實現代碼
4 8 3 執行過程
4 9 本章小結
4 10 習題
實驗3 熟悉Kafka的基本使用方法
第5章 日誌採集系統Flume
5 1 Flume簡介
5 2 Flume的安裝和使用
5 2 1 Flume的安裝
5 2 2 Flume的使用
5 3 Flume和Kafka的組合使用
5 3 1 Flume採集NetCat數據到Kafka
5 3 2 Flume採集文件數據到Kafka
5 3 3 Flume採集MySQL數據
詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於客服中心或Line或本社留言板留言,我們即儘速上架。
規格說明
大陸簡體正版圖書,訂購後正常情形下約兩周可抵台。
運送方式
已加入購物車
已更新購物車
網路異常,請重新整理