內容簡介
本書介紹Python網路爬蟲開發從業者應掌握的基礎技能。本書以網路爬蟲為核心,涉及大大小小數十個能力體系。本書的前半部分介紹爬蟲開發的基礎知識,包括爬蟲開發必備的環境搭建方法、開發中常用工具的使用方法和技巧、網頁的構成原理和網頁信息提取的方法、常用資料庫的使用方法和應用場景,如通過Redis內置的布隆過濾器實現大規模URL地址的去重任務。本書的後半部分主要講解網路爬蟲開發所需的必要能力,包括網路通信的底層原理、背後涉及的互聯網協議標準及如何對這些協議進行分析並加以利用,使用Docker部署網路爬蟲所需的環境和爬蟲項目的打包部署,使用網路爬蟲的核心請求庫實現與伺服器端和客戶端的通信和交互,使用自動化神器Selenium對複雜的爬蟲需求進行快速實現,以及網路爬蟲的多任務開發,重點是通過多線程和多進程來提高爬蟲效率。 本書面向準備從事或正在從事網路爬蟲開發的從業者以及對網路爬蟲有濃厚興趣的愛好者。目錄
第1章 基礎開發環境