數據採集與處理 劉珍 9787121468841 【台灣高等教育出版社】

圖書均為代購,正常情形下,訂後約兩周可抵台。
物品所在地:中國大陸
原出版社:電子工業
NT$317
商品編號:
供貨狀況: 尚有庫存

此商品參與的優惠活動

加入最愛
商品介紹
*數量非實際在台庫存
*完成訂單後正常情形下約兩周可抵台

*本賣場提供之資訊僅供參考,以到貨標的為實際資訊。
印行年月:202401*若逾兩年請先於私訊洽詢存貨情況,謝謝。
台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。
書名:數據採集與處理
ISBN:9787121468841
出版社:電子工業
著編譯者:劉珍
頁數:252
所在地:中國大陸 *此為代購商品
書號:1606948
可大量預訂,請先連絡。

內容簡介

本書基於Python 3 10版本,以項目實戰的方式系統地介紹了Python網路爬蟲開發的相關知識,主要內容包括Python基礎實戰、網頁數據採集實戰、網頁數據解析實戰、併發技術實戰、動態內容採集實戰、爬蟲數據存儲實戰、Scrapy爬蟲框架實戰等,通過多個實戰任務的練習,讓讀者能最大限度地掌握Python網路爬蟲的核心技術。為了方便讀者學習,本書附有配套源代碼、教學PPT、題庫、教學視頻、教學設計等資源。 本書可作為高等院校計算機相關專業程序設計課程教材,也可供從事計算機爬蟲應用開發的相關人員使用。

目錄

項目1 Python基礎實戰
任務1 1 Python開發環境搭建
1 1 1 在Windows系統中安裝Python
1 1 2 在Linux系統中安裝Python
1 1 3 安裝PyCharm集成開發環境
任務1 2 從HTML文檔中提取特定字元串
1 2 1 數值類型與變數
1 2 2 字元串
1 2 3 運算符
1 2 4 流程式控制制
任務1 3 用列表、字典等組織數據
1 3 1 列表(list)
1 3 2 元組(tuple)
1 3 3 字典(dict)
1 3 4 集合(set)
1 3 5 函數
任務1 4 基於正則表達式提取圖片鏈接文本
1 4 1 模塊和包
1 4 2 異常處理
1 4 3 正則表達式
任務1 5 從JSON文件中載入數據
1 5 1 類與對象
1 5 2 文件與

目錄

操作
1 5 3 JSON
項目2 網頁數據採集實戰
任務2 1 利用工具爬取一個電商網頁
2 1 1 爬蟲的定義
2 1 2 爬蟲的類型
2 1 3 與爬蟲相關的網站文件
2 1 4 反爬蟲應對策略
2 1 5 爬蟲的合法性
任務2 2 基於urllib庫爬取一個電商網頁
任務2 3 urllib處理髮送GET/POST請求
任務2 4 請求頭偽裝與代理伺服器應用
2 4 1 請求頭偽裝
2 4 2 代理伺服器
任務2 5 網路異常處理
2 5 1 URLError
2 5 2 HTTPError
任務2 6 基於requests庫爬取電商網頁
項目3 網頁數據解析實戰
任務3 1 HTML基礎
3 1 1 HTML網頁的結構
3 1 2 Chrome瀏覽器的DevTools
任務3 2 基於正則表達式的網頁數據解析
任務3 3 XPath應用
3 3 1 XPath簡介
3 3 2 lxml簡介
任務3 4 Beautiful Soup解析數據
任務3 5 JSON數據解析
項目4 併發技術實戰
任務4 1 基於進程的併發爬蟲
4 1 1 併發原理
4 1 2 進程(Process)
4 1 3 Python的多進程併發編程
任務4 2 基於queue模塊的多線程爬蟲
4 2 1 線程(Thread)
4 2 2 Python的多線程併發編程
任務4 3 基於協程的併發爬蟲
任務4 4 歷史天氣併發爬取
項目5 動態內容採集實戰
任務5 1 動態網頁基礎
任務5 2 Selenium的安裝配置
任務5 3 基於Selenium的動態網頁爬取
任務5 4 基於Selenium的模擬登錄
任務5 5 驗證碼的識別處理
5 5 1 驗證碼基礎
5 5 2 Pytesseract簡介
5 5 3 PIL簡介
任務5 6 基於Selenium的招聘職位獲取
項目6 爬蟲數據存儲實戰
任務6 1 MongoDB基礎
6 1 1 MongoDB的安裝
6 1 2 MongoDB的基本操作
任務6 2 基於PyMongo的爬蟲數據存儲
任務6 3 Redis資料庫基礎
6 3 1 Redis的安裝
6 3 2 Redis的操作命令
任務6 4 基於redis模塊的爬蟲數據存儲
項目7 Scrapy爬蟲框架實戰
任務7 1 Scrapy爬蟲框架基礎
7 1 1 Scrapy爬蟲框架簡介
7 1 2 Scrapy項目創建
7 1 3 Scrapy常用命令
任務7 2 定義Spider爬取鬥魚直播平台數據
7 2 1 Item類簡介
7 2 2 Spider類簡介
任務7 3 自定義爬蟲中間件爬取眾圖網數據
7 3 1 Scrapy的settings文件
7 3 2 Downloader Middlewares
任務7 4 CrawlSpider自動爬取數據
7 4 1 CrawlSpider
7 4 2 Rule
7 4 3 LinkExtractor
任務7 5 應用Item Pipeline進行後期數據處理
任務7 6 綜合實訓——百度科學百科數據爬取
詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。
規格說明
運送方式
已加入購物車
已更新購物車
網路異常,請重新整理