| *完成訂單後正常情形下約兩周可抵台。 *本賣場提供之資訊僅供參考,以到貨標的為正確資訊。 印行年月:202308*若逾兩年請先於私訊洽詢存貨情況,謝謝。 台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。 書名:Python網絡爬蟲項目式教程 ISBN:9787121461972 出版社:電子工業 著編譯者:錢遊 頁數:286 所在地:中國大陸 *此為代購商品 書號:1564107 可大量預訂,請先連絡。 內容簡介 網路爬蟲是按照一定規則自動請求伺服器上的網頁,並採集網頁數據的一種程序或腳本,它可以代替人進行數據採集,也可以自動採集網頁數據、高效利用互聯網數據,因此在市場應用中佔據了重要位置。 本書以Windows操作系統為主要開發平台,系統、全面地講解了網路爬蟲的相關知識。本書的主要內容包括保存伺服器網頁到本地、使用正則表達式提取網頁內容、爬取豆瓣電影TOP250欄目、使用requests庫爬取電影網站、通過模擬用戶登錄爬取網站、使用Scrapy框架爬取圖片網站、使用分散式爬蟲爬取騰訊招聘頻道,主要知識點囊括網路爬蟲基礎知識、網頁請求原理、抓取靜態網頁數據、解析網頁數據、抓取動態網頁數據、網路爬蟲的優化、數據的持久化存儲、識別驗證碼、搭建網路爬蟲框架、網路分散式爬蟲Scrapy-Redis的開發和部署等。 本書內容通俗易懂,案例豐富,實用性強,特別適合Python語言的基礎學習者和進階學習者,也適合Python程序員、爬蟲工程師等編程愛好者。本書不僅可以作為高校教材,也可以作為相關培訓機構的教材,還可以作為廣大網路爬蟲開發者的參考書。此外,本書開發了豐富的教學資源庫,並免費提供所有素材。目錄 項目一 保存伺服器網頁到本地任務1 認識網路爬蟲 任務演示 知識準備 1 初步認識網路爬蟲 2 網路爬蟲的結構及其工作原理 3 爬蟲技術的風險與Robots協議 4 Python的安裝 5 Pygame的簡單使用 任務實施 任務拓展 1 反爬蟲的目的與手段 2 Windo環境下的MongoDB資料庫安裝和配置 3 Linux環境下的MongoDB資料庫安裝和配置 任務2 將請求到的網頁保存到本地 任務演示 知識準備 1 使用urllib請求網頁 2 安裝和配置MySQL資料庫 任務實施 任務拓展 小結 複習題 項目二 使用正則表達式提取網頁內容 任務1 在網頁上展示偉大抗疫精神 任務演示 知識準備 1 HTML基礎知識 2 CSS基礎知識 3 CSS樣式選擇器 任務實施 任務拓展 1 JavaScript的引入 2 JavaScript的基本語法 任務2 使用正則表達式提取文本中的指定內容 任務演示 知識準備 1 正則表達式的基本語法 2 正則表達式的使用 任務實施 任務拓展 小結 複習題 項目三 爬取豆瓣電影TOP250欄目 任務1 使用urllib框架請求網頁 任務演示 知識準備 1 網路爬蟲開發的基本流程 2 urllib框架的基本模塊 3 字元的編碼和解碼 任務實施 1 URL分析 2 編碼規範 3 爬取豆瓣電影TOP250欄目 任務拓展 任務2 使用BeautifulSoup4解析網頁 任務演示 知識準備 1 BeautifulSoup4的四個對象 2 文檔的遍歷 3 文檔的搜索 任務實施 任務拓展 任務3 使用XPath解析網頁數據 任務演示 知識準備 任務實施 任務拓展 任務4 數據的持久化存儲 任務演示 知識準備 任務實施 任務拓展 小結 複習題 項目四 使用requests庫爬取電影網站 任務1 使用requests庫請求網頁 任務演示 知識準備 1 requests庫的安裝 2 GET請求 3 POST請求 任務實施 任務拓展 任務2 使用requests-html庫解析網頁 任務演示 知識準備 1 requests-html庫的新功能 2 requests-html庫的安裝 3 requests-html庫的使用 任務實施 任務拓展 1 網路爬蟲的優化 2 將請求到的數據保存到MySQL資料庫中 小結 複習題 項目五 通過模擬用戶登錄爬取網站 任務1 模擬用戶登錄 任務演示 知識準備 1 使用ddddocr模塊識別驗證碼 2 使用在線平台行打碼 任務實施 1 對古詩文網的登錄驗證碼行驗證 2 實現模擬用戶登錄 任務拓展 1 攜帶Cookies請求網頁 2 古詩文網登錄實現 3 在登錄成功後行數據採集 任務2 使用Selenium模擬用戶登錄豆瓣網 任務演示 知識準備 1 什麼是Selenium 2 Selenium的安裝 任務實施 任務拓展 小結 複習題 項目六 使用Scrapy框架爬取圖片網站 任務1 Scrapy開發環境搭建 任務演示 知識準備 1 常見的爬蟲框架 2 Scrapy框架概述 任務實施 任務拓展 任務2 使用Scrapy框架爬取代理IP 任務演示 知識準備 1 XPath選擇器 2 CSS選擇器 任務實施 任務拓展 任務3 Scrapy數據的持久化存儲 任務演示 知識準備 1 基於終端命令存儲 2 基於管道存儲 任務實施 1 實現基於終端命令的數據持久化存儲 2 實現基於管道的數據持久化存儲——使用文本存儲數據 3 實現基於管道的數據持久化存儲—使用MySQL資料庫存儲數據 4 實現基於管道的數據持久化存儲——使用Redis資料庫存儲數據 5 實現基於管道的數據持久化存儲——使用MongoDB資料庫存儲數據 任務拓展 任務4 爬取圖片網站 任務演示 知識準備 任務實施 任務拓展 1 將爬取的圖片名及其路徑保存到MySQL資料庫中 2 使用Scrapy框架爬取圖說歷史欄目 小結 複習題 項目七 使用分散式爬蟲爬取騰訊招聘頻道 任務1 搭建Scrapy-Redis開發環境 任務演示 知識準備 1 分散式爬蟲的基本概念 2 分散式環境的搭建 3 在Ubuntu系統上安裝Scrapy 4 在CentOS 7系統上安裝Scrapy 任務實施 任務拓展 任務2 開發分散式爬蟲 任務演示 知識準備 任務實施 1 創建Scrapy爬蟲 2 初始化配置 3 網站結構分析 4 爬蟲的核心代碼 5 部署分散式爬蟲 任務拓展 1 隨機請求頭 2 爬取視頻 小結 複習題 詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。 |