*數量非實際在台庫存 *完成訂單後正常情形下約兩周可抵台。 *本賣場提供之資訊僅供參考,以到貨標的為實際資訊。 印行年月:202401*若逾兩年請先於私訊洽詢存貨情況,謝謝。 台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。 書名:數據採集與處理 ISBN:9787121468841 出版社:電子工業 著編譯者:劉珍 頁數:252 所在地:中國大陸 *此為代購商品 書號:1606948 可大量預訂,請先連絡。 內容簡介 本書基於Python 3 10版本,以項目實戰的方式系統地介紹了Python網路爬蟲開發的相關知識,主要內容包括Python基礎實戰、網頁數據採集實戰、網頁數據解析實戰、併發技術實戰、動態內容採集實戰、爬蟲數據存儲實戰、Scrapy爬蟲框架實戰等,通過多個實戰任務的練習,讓讀者能最大限度地掌握Python網路爬蟲的核心技術。為了方便讀者學習,本書附有配套源代碼、教學PPT、題庫、教學視頻、教學設計等資源。 本書可作為高等院校計算機相關專業程序設計課程教材,也可供從事計算機爬蟲應用開發的相關人員使用。目錄 項目1 Python基礎實戰任務1 1 Python開發環境搭建 1 1 1 在Windows系統中安裝Python 1 1 2 在Linux系統中安裝Python 1 1 3 安裝PyCharm集成開發環境 任務1 2 從HTML文檔中提取特定字元串 1 2 1 數值類型與變數 1 2 2 字元串 1 2 3 運算符 1 2 4 流程式控制制 任務1 3 用列表、字典等組織數據 1 3 1 列表(list) 1 3 2 元組(tuple) 1 3 3 字典(dict) 1 3 4 集合(set) 1 3 5 函數 任務1 4 基於正則表達式提取圖片鏈接文本 1 4 1 模塊和包 1 4 2 異常處理 1 4 3 正則表達式 任務1 5 從JSON文件中載入數據 1 5 1 類與對象 1 5 2 文件與 目錄 操作1 5 3 JSON 項目2 網頁數據採集實戰 任務2 1 利用工具爬取一個電商網頁 2 1 1 爬蟲的定義 2 1 2 爬蟲的類型 2 1 3 與爬蟲相關的網站文件 2 1 4 反爬蟲應對策略 2 1 5 爬蟲的合法性 任務2 2 基於urllib庫爬取一個電商網頁 任務2 3 urllib處理髮送GET/POST請求 任務2 4 請求頭偽裝與代理伺服器應用 2 4 1 請求頭偽裝 2 4 2 代理伺服器 任務2 5 網路異常處理 2 5 1 URLError 2 5 2 HTTPError 任務2 6 基於requests庫爬取電商網頁 項目3 網頁數據解析實戰 任務3 1 HTML基礎 3 1 1 HTML網頁的結構 3 1 2 Chrome瀏覽器的DevTools 任務3 2 基於正則表達式的網頁數據解析 任務3 3 XPath應用 3 3 1 XPath簡介 3 3 2 lxml簡介 任務3 4 Beautiful Soup解析數據 任務3 5 JSON數據解析 項目4 併發技術實戰 任務4 1 基於進程的併發爬蟲 4 1 1 併發原理 4 1 2 進程(Process) 4 1 3 Python的多進程併發編程 任務4 2 基於queue模塊的多線程爬蟲 4 2 1 線程(Thread) 4 2 2 Python的多線程併發編程 任務4 3 基於協程的併發爬蟲 任務4 4 歷史天氣併發爬取 項目5 動態內容採集實戰 任務5 1 動態網頁基礎 任務5 2 Selenium的安裝配置 任務5 3 基於Selenium的動態網頁爬取 任務5 4 基於Selenium的模擬登錄 任務5 5 驗證碼的識別處理 5 5 1 驗證碼基礎 5 5 2 Pytesseract簡介 5 5 3 PIL簡介 任務5 6 基於Selenium的招聘職位獲取 項目6 爬蟲數據存儲實戰 任務6 1 MongoDB基礎 6 1 1 MongoDB的安裝 6 1 2 MongoDB的基本操作 任務6 2 基於PyMongo的爬蟲數據存儲 任務6 3 Redis資料庫基礎 6 3 1 Redis的安裝 6 3 2 Redis的操作命令 任務6 4 基於redis模塊的爬蟲數據存儲 項目7 Scrapy爬蟲框架實戰 任務7 1 Scrapy爬蟲框架基礎 7 1 1 Scrapy爬蟲框架簡介 7 1 2 Scrapy項目創建 7 1 3 Scrapy常用命令 任務7 2 定義Spider爬取鬥魚直播平台數據 7 2 1 Item類簡介 7 2 2 Spider類簡介 任務7 3 自定義爬蟲中間件爬取眾圖網數據 7 3 1 Scrapy的settings文件 7 3 2 Downloader Middlewares 任務7 4 CrawlSpider自動爬取數據 7 4 1 CrawlSpider 7 4 2 Rule 7 4 3 LinkExtractor 任務7 5 應用Item Pipeline進行後期數據處理 任務7 6 綜合實訓——百度科學百科數據爬取 詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。 |