大數據採集技術與應用 陳恆星 唐海濤 何亮 等 9787113309770 【台灣高等教育出版社】

圖書均為代購,正常情形下,訂後約兩周可抵台。
物品所在地:中國大陸
原出版社:中國鐵道有限公司
大陸簡體正版圖書,訂購後正常情形下約兩周可抵台。
NT$317
商品編號: 9787113309770
供貨狀況: 尚有庫存

此商品參與的優惠活動

加入最愛
商品介紹
*完成訂單後正常情形下約兩周可抵台
*本賣場提供之資訊僅供參考,以到貨標的為正確資訊。
印行年月:202412*若逾兩年請先於客服中心或Line洽詢存貨情況,謝謝。
台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。
書名:大數據採集技術與應用
ISBN:9787113309770
出版社:中國鐵道有限公司
著編譯者:陳恆星 唐海濤 何亮 等
頁數:179
所在地:中國大陸 *此為代購商品
書號:1713878
可大量預訂,請先連絡。

內容簡介

本書針對目前大數據發展的方向,根據應用型高等院校人才培養目標編寫。本書分為基礎篇、實踐篇和拓展篇:基礎篇主要講述爬蟲的基本原理、爬蟲的基本配置以及爬蟲相關庫的使用;實踐篇包括Scrapy框架的原理和應用以及大數據採集工具的使用;拓展篇通過一個案例——爬取網絡雲課課程信息來整合前面的技術。 本書以提高讀者能力為導向,以案例為基礎,在講解技術的同時輔以案例來幫助讀者領會和掌握技術,體現了逐層遞進、從簡單到綜合的思想。 本書適合作為高等院校大數據、物聯網等專業的教材,也可作為培訓機構數據採集課程的教材,還可供從事相關工作的專業技術人員使用。

目錄

基礎篇
項目一 認識大數據採集技術
任務一 大數據採集技術的概念
一、掌握大數據的主流技術
二、識記大數據採集技術
三、識記大數據採集工具
任務二 理解網絡爬蟲與反爬蟲
一、識記爬蟲的定義
二、識記爬蟲的分類
三、領會爬蟲的工作原理
四、識記爬蟲的搜索策略
五、領會反爬蟲的目的和策略
任務三 學習爬蟲開發基礎知識
一、掌握HTTP基本原理
二、掌握網頁基礎知識
三、掌握會話和Cookies
思考與練習
項目二 配置爬蟲環境
任務一 安裝Python 3
一、了解Python
二、Windows操作系統下安裝Python
三、Linux操作系統下安裝Python
任務二 安裝請求庫
一、安裝Requests
二、安裝Selenium
三、安裝Chromedriver
任務三 安裝解析庫
一、安裝lxml
二、安裝BeautifulSoup
三、安裝Pyquery
四、安裝MySQL和PyMySQL
任務四 安裝資料庫及爬蟲框架
一、安裝MongoDB和PyMongo
二、安裝Redis,Redis-py和Redisdump
三、安裝Scrapy
思考與練習
項目三 使用數據爬取相關庫
任務一 使用請求庫
一、使用urllib爬取數據
二、使用Requests爬取數據
任務二 使用解析庫
一、使用XPATH
二、使用BeautifulSoup解析數據
三、使用PyQuery解析數據
四、爬取Ajax數據
任務三 使用存儲庫
一、文件存儲
二、存儲到MySQL
三、存儲到非關係型資料庫
思考與練習
實踐篇
項目四 應用圖像識別技術
任務 識別圖形驗證碼
一、圖形驗證碼與相關識別庫
二、安裝配置Tesserocr
三、安裝Python圖片識別庫
四、使用Python圖片識別庫
思考與練習
項目五 使用Scrapy框架
任務 使用Scrapy框架
一、了解Scrapy框架
二、創建Scrapy項目
三、配置Scrapy項目
四、運行Scrapy項目
五、保存數據到文件
思考與練習
項目六 使用大數據採集工具
任務一 認識大數據同步技術——DataX
一、了解DataX的基本概念
二、DataX 3 0的框架設計
三、安裝並配置DataX 3 0
四、DataX應用實例參考
任務二 認識大數據採集技術——Kafka
一、了解Kafka
二、Kafka的安裝與應用
思考與練習
拓展篇
項目七 爬取網絡雲課信息
任務 使用Scrapy爬取網絡雲課數據
一、了解爬取項目
二、準備爬取項目
三、理解爬取思路
四、分析爬取項目
五、創建項目
六、創建Item
七、提取數據
八、清洗數據
九、存儲數據
十、搭建Cookies池
十一、搭建IP代理池
十二、啟用MiddleWare
十三、運行項目
思考與練習
附錄A 縮略語
附錄B 思考與練習參考答案
參考文獻
詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於客服中心或Line或本社留言板留言,我們即儘速上架。
規格說明
大陸簡體正版圖書,訂購後正常情形下約兩周可抵台。
運送方式
已加入購物車
已更新購物車
網路異常,請重新整理