Python爬蟲從菜鳥到高手 李寧 9787302640516 【台灣高等教育出版社】

圖書均為代購,正常情形下,訂後約兩周可抵台。
物品所在地:中國大陸
原出版社:清華大學
NT$757
商品編號:
供貨狀況: 尚有庫存

此商品參與的優惠活動

加入最愛
商品介紹
*完成訂單後正常情形下約兩周可抵台
*本賣場提供之資訊僅供參考,以到貨標的為正確資訊。
印行年月:202309*若逾兩年請先於私訊洽詢存貨情況,謝謝。
台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。
書名:Python爬蟲從菜鳥到高手
ISBN:9787302640516
出版社:清華大學
著編譯者:李寧
頁數:460
所在地:中國大陸 *此為代購商品
書號:1589726
可大量預訂,請先連絡。

編輯推薦
“私房菜譜”
※ Python爬蟲基礎知識
※ Python網絡庫
※ Python解析庫
※ Python數據存儲
※ Python異步數據抓取
※ Python Splash爬蟲
※ Python移動App數據抓取
※ Python多線程爬蟲
※ Python可見即可”爬”
※ Python Scrapy實戰
※ Python識別驗證碼
※ Python項目實戰
“實戰項目”
※ 抓取小說
目錄與正文
※ 抓取豆瓣網圖書榜單
※ 抓取房屋租賃信息
※ 抓取豆瓣網音樂排行榜
※ 抓取百度網站圖片搜索中的圖片
※ 檢測滑動驗證碼
可視化爬蟲抓取和分析圖書評論

內容簡介
本書從實戰角度系統論述了Python 爬蟲技術的核心知識,並通過大量的真實項目幫助讀者深入掌握Python 爬蟲技術及其實現。本書提供了大量實戰案例,演繹採用各種技術編寫Python 爬蟲的方式。讀者可以任意組合使用這些技術,完成非常複雜的爬蟲應用。本書共20 章,分為五篇。第一篇:基礎知識(第1∼2 章 ),主要包括Python 編程環境的搭建、IDE 的安裝和使用、HTTP 的基礎知識、網頁基礎(HTML、CSS、JavaScript)、爬蟲的基本原理、Session、Cookie。第二篇:網絡庫(第3∼5 章 ),主要包括網絡庫urllib、urllib3 和requests 的核心使用方法,例如,發送HTTP 請求、處理超時、設置HTTP 請求頭、處理中文字符、搭建和使用代理、解析鏈接、Robots 協議等。第三篇:解析庫(第6∼9 章 ),主要包括3 個常用解析庫(lxml、Beautiful Soup 和pyquery)的使用方法,同時介紹了多種用於分析HTML 代碼的技術,例如,正則表達式、XPath、CSS 選擇器、方法選擇器等。第四篇:數據存儲(第10∼11 章 ),主要包括Python 中數據存儲的解決方案,如文件存儲和SQLite 數據庫。第五篇:爬蟲高級應用(第12∼20 章 ),主要包括Python 爬蟲的一些高級技術,如抓取異步數據、Selenium、Splash、抓取移動App 數據、Appium、多線程爬蟲、爬蟲框架Scrapy、通過OpenCV 技術識別驗證碼;最後給出一個綜合的實戰案例,該案例綜合了Python 爬蟲、數據存儲、PyQt、多線程、數據可視化、Web 等多種技術實現一個可視化爬蟲。

作者簡介
李甯 華為HDE(HUAWEI Developer Experts),UnityMarvel創始人,開放原子基金會銀牌講師,51CTO學堂金牌講師,IT暢銷書作者。從事軟件研究和開發超過20年,長期從事編譯器、人工智能、Python、JavaScript、Java及跨平臺技術的研究和開發工作,曾出版超過40本IT圖書。

精彩書評
唐佐林 OpenHarmony Python SIG 負責人,Py4OH框架作者
《Python爬蟲從菜鳥到高手》面向初學者,通過案例驅動的方式逐步帶領讀者掌握爬蟲基礎技術,可作為數據挖掘及深度學習技術的前置技術圖書使用。
李洋 蛟龍騰飛CEO/CTO,華為公司HDE,開放原子開源基金會開源大使
《Python爬蟲從菜鳥到高手》全面系統地講解了Python爬蟲的相關知識,並配有大量插圖、代碼、視頻等內容,具有極強的互動性,循序漸進的結構安排讓讀者容易動手實踐,掌握Python爬蟲技術,事半功倍。
鐘洪發 51CTO學堂金牌講師
《Python爬蟲從菜鳥到高手》實踐性強,知識體系完整。全書章 節 編排由淺入深,對初學者友好,同時也適合有基礎的同學提升技能,講解很詳細,強烈推薦!
夏曹俊 捷帝科技公司創始人,華為公司HDE,51CTO學堂金牌講師
《Python爬蟲從菜鳥到高手》詮釋了Python爬蟲的核心開發技術。不管是”菜鳥”,還是”高手”,都可從本書受益。更難能可貴的是,本書提供了大量的實戰案例和微課視頻,通過各種爬蟲的編程演練,快速掌握編程技術。

目錄

第一篇基礎知識
第1章 開發環境配置 3
6分鐘
1 1搭建Python編程環境3
1 1 1獲取Python安裝包 3
1 1 2安裝Windows版的Python開發包4
1 1 3安裝macOS版的Python開發包 4
1 1 4安裝Linux版的Python開發包5
1 2安裝AnacondaPython開發環境 5
1 3消除PythonREPL中的錯誤和警告 6
1 4安裝PyCharm7
1 5配置PyCharm8
1 6小結9
第2章 爬蟲基礎 10
10分鐘
2 1HTTP基礎 10
2 1 1URI和URL10
2 1 2超文本11
2 1 3HTTP與HTTPS11
2 1 4HTTP的請求過程 13
2 1 5請求16
2 1 6響應19
2 2網頁基礎 22
2 2 1HTML基礎 22
2 2 2CSS基礎23
2 2 3CSS選擇器 23
2 2 4JavaScript 25
2 3爬蟲的基本原理 25
2 3 1爬蟲的分類26
2 3 2爬蟲抓取數據的方式和手段26
2 4Session與Cookie27
6Python爬蟲從菜鳥到高手
2 4 1靜態頁面和動態頁面27
2 4 2無狀態HTTP與Cookie 28
2 4 3利用Session和Cookie保持狀態 28
2 4 4查看網站的Cookie29
2 4 5HTTP狀態何時會失效30
2 5項目實戰:抓取所有的網絡資源31
實例2 1基於遞歸算法的爬蟲的代碼34
2 6項目實戰:抓取博客文章 列表 35
實例2 2抓取博客園首頁文章 列表的爬蟲36
2 7小結38
第二篇網絡庫
第3章 網絡庫urllib 41
39分鐘
3 1urllib簡介41
3 2發送請求與獲得響應42
3 2 1用urlopen函數發送HTTPGET請求42
實例3 1使用HTTPResponse讀取響應數據42
3 2 2用urlopen函數發送HTTPPOST請求 43
實例3 2使用urlopen函數發送HTTPPOST請求,並獲得返回數據43
3 2 3請求超時 44
實例3 3捕捉urlopen函數的超時異常45
3 2 4設置HTTP請求頭45
實例3 4修改和提交HTTP請求頭45
3 2 5設置中文HTTP請求頭 47
實例3 5設置和解碼中文HTTP請求頭 48
3 2 6請求基礎驗證頁面49
實例3 6請求基礎驗證頁面50
3 2 7搭建代理與使用代理53
實例3 7通過代理訪問Web頁面55
3 2 8讀取和設置Cookie55
實例3 8讀取Cookie56
實例3 9將Cookie保存為Mozille格式和LWP格式 57
實例3 10裝載和發送Cookie 58
3 3異常處理 59
3 3 1URLError 59
實例3 11捕捉發送請求拋出的異常 59
3 3 2HTTPError60
目錄7
實例3 12使用HTTPError類和URLError類捕捉異常 60
3 4解析鏈接 61
3 4 1拆分與合併URL方法一(urlparse與urlunparse)61
實例3 13使用urlparse函數和urlunparse函數拆分與合併URL62
3 4 2拆分與合併URL方法二(urlsplit與urlunsplit)63
實例3 14使用urlsplit函數和urlunsplit函數拆分與合併URL63
3 4 3連接URL(urljoin)64
實例3 15使用urljoin函數連接URL64
3 4 4URL編碼(urlencode) 65
實例3 16使用urlencode函數編碼包含中文的URL 65
3 4 5編碼與解碼(quote與unquote)65
實例3 17使用quote函數和unquote對URL中的參數編碼和解碼65
3 4 6參數轉換(parse_qs與parse_qsl)65
實例3 18拆分由多個參數組成的字符串 66
3 5Robots協議66
3 5 1Robots協議簡介 66
3 5 2分析Robots協議68
實例3 19用robots txt約束爬蟲68
3 6小結69
第4章 網絡庫urllib370
10分鐘
4 1urllib3簡介70
4 2urllib3模塊70
4 3發送HTTPGET請求71
實例4 1獲取百度的搜索結果71
4 4發送HTTPPOST請求72
實例4 2發送HTTPPOST請求,並接收返回結果 72
4 5HTTP請求頭73
實例4 3搜索天貓商城中的數據 74
4 6HTTP響應頭76
實例4 4獲取並輸出HTTP響應頭信息 76
4 7上傳文件 76
實例4 5將任意文件上傳到服務端77
4 8超時78
實例4 6連接超時和讀取超時78
4 9小結79
第5章 網絡庫requests80
17分鐘
5 1基本用法 80
8Python爬蟲從菜鳥到高手
5 1 1requests的HelloWorld80
實例5 1發送HTTPGET請求,並獲取響應的返回信息80
5 1 2HTTPGET請求81
實例5 2設置HTTPGET請求參數81
5 1 3添加HTTP請求頭82
實例5 3設置HTTP請求頭82
5 1 4抓取二進制數據 83
實例5 4抓取並保存圖像 83
5 1 5HTTPPOST請求84
實例5 5發送HTTPPOST請求,並獲取響應數據 84
5 1 6響應數據 84
實例5 6向簡書發送HTTPGET請求,並輸出響應結果85
5 2高級用法 85
5 2 1上傳文件 86
實例5 7上傳本地圖像86
5 2 2處理Cookie87
實例5 8獲取和發送Cookie87
5 2 3使用同一個會話(Session)88
實例5 9Session與Cookie密切配合維護會話88
5 2 4SSL證書驗證89
實例5 10捕捉證書驗證異常 89
5 2 5使用代理 92
實例5 11通過代理訪問天貓首頁,並輸出響應內容92
5 2 6超時92
實例5 12連接超時和讀取超時93
5 2 7身份驗證 93
實例5 13發送Basic驗證請求 94
5 2 8將請求打包94
實例5 14封裝和發送請求94
5 3小結95
第三篇解析庫
第6章 正則表達式99
35分鐘
6 1使用正則表達式 99
6 1 1使用match方法匹配字符串99
實例6 1利用match方法與group方法實現模式匹配99
6 1 2使用search方法在一個字符串中查找模式100
目錄9
實例6 2使用match方法與search方法進行匹配和搜索100
6 1 3匹配多個字符串101
實例6 3擇一匹配符與匹配和搜索 101
6 1 4匹配任何單個字符 102
實例6 4點符號的匹配與替換102
6 1 5使用字符集 103
實例6 5字符集和擇一匹配符的用法和差別104
6 1 6重複、可選和特殊字符105
實例6 6各種匹配符號的用法106
6 1 7分組 108
實例6 7在正則表達式中使用分組 108
6 1 8匹配字符串的起始和結尾及單詞邊界 109
實例6 8匹配字符串的起始和結束位置及單詞的邊界 110
6 1 9使用findall函數和finditer函數查找每一次出現的位置 111
實例6 9使用findall函數和finditer函數搜索字符串 111
6 1 10用sub函數和subn函數搜索與替換113
實例6 10使用sub函數和subn函數搜索和替換字符串 113
6 1 11使用split函數分隔字符串 114
實例6 11使用split函數分隔字符串 114
6 2一些常用的正則表達式115
實例6 12使用Email、IP地址和Web地址的正則表達式 115
6 3項目實戰:抓取小說
目錄和全文116

規格說明
運送方式
已加入購物車
已更新購物車
網路異常,請重新整理