Java網絡爬蟲精解與實踐 張凱 9787302674849 【台灣高等教育出版社】

圖書均為代購,正常情形下,訂後約兩周可抵台。
物品所在地:中國大陸
原出版社:清華大學
NT$566
商品編號:
供貨狀況: 尚有庫存

此商品參與的優惠活動

加入最愛
商品介紹
*完成訂單後正常情形下約兩周可抵台
*本賣場提供之資訊僅供參考,以到貨標的為正確資訊。
印行年月:202411*若逾兩年請先於私訊洽詢存貨情況,謝謝。
台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。
書名:Java網絡爬蟲精解與實踐
ISBN:9787302674849
出版社:清華大學
著編譯者:張凱
頁數:281
所在地:中國大陸 *此為代購商品
書號:1686323
可大量預訂,請先連絡。

內容簡介

本書全面而系統地介紹與網路爬蟲程序相關的理論知識,並包含大量的實踐操作案例。 本書共分為8章。第1章以自動化框架為基礎,介紹網路爬蟲程序的入門開發實踐。第2章深入講解網頁內容的處理、解析技術和數據提取方法。第3章討論驗證碼識別技術以及如何有效繞過驗證碼的策略。第4章涉及網路抓包技術及其對抗策略。第5章深入探討JavaScript代碼的混淆技術與逆向分析方法。第6章專註于移動端應用程序的數據爬取技術及相關逆向分析技術。第7章介紹構建分散式網路爬蟲系統所需的關鍵技術。第8章通過實戰案例,展示分散式網路爬蟲系統設計與實現的思路。通過學習本書,讀者將顯著提升網路爬蟲系統的設計與實現能力,並增強對網頁代碼及移動端應用程序代碼的逆向分析水平。 本書的內容不僅涵蓋理論知識,還注重實踐操作,適合廣大網路爬蟲程序開發愛好者閱讀。同時,本書也適合作為培訓機構和學校的教學參考用書。

作者簡介

張凱 中國科學院大學軟體工程專業碩士,研究方向為操作系統虛擬化,畢業后先後供職于微策略、新浪微博,目前供職于粉筆科技,任技術總監職務,擔任爬蟲平台、內容審核平台等多個重要系統技術負責人。對網路爬蟲、高可用架構設計和文本分類領域有著深入研究。

目錄

第1章 網路爬蟲開發入門實踐
1 1 Java網路爬蟲框架概覽
1 2 搭建開發環境
1 2 1 搭建Java開發環境
1 2 2 搭建Selenium開發環境
1 3 簡單Web爬蟲程序示例
1 3 1 獲取網頁內容並列印
1 3 2 利用XPath獲取指定元素
1 3 3 單擊搜索按鈕
1 3 4 獲取iframe元素中的數據
1 3 5 使用更加優雅的等待方式
1 3 6 實現屏幕截圖
1 3 7 執行JavaScript腳本
1 4 WebDriver選項配置
1 4 1 瀏覽器通用選項配置
1 4 2 Chrome瀏覽器特定選項配置
1 4 3 ChromeDevToolsProtocol
1 5 BrowserMobProxy
1 6 其他主流Web自動化測試框架
1 6 1 Puppeteer
1 6 2 Playwright
1 7 本章小結
1 8 本章練習
第2章 網頁內容解析與提取
2 1 Selenium元素定位器
2 2 基於正則表達式的內容解析與提取
2 2 1 正則表達式的基礎語法
2 2 2 正則表達式的高級應用技巧
2 2 3 正則表達式的應用場景
2 3 基於JsonPath的內容解析與提取
2 4 本章小結
2 5 本章練習
IVJava網路爬蟲精解與實踐
第3章 驗證碼繞過與識別
3 1 驗證碼介紹
3 1 1 基於文本識別的驗證碼
3 1 2 基於圖片識別的驗證碼
3 1 3 基於語音識別的驗證碼
3 1 4 基於行為識別的智能驗證碼
3 2 避免CAPTCHA驗證碼觸發
3 3 CAPTCHA驗證碼生成
3 3 1 文本驗證碼的生成
3 3 2 滑塊驗證碼的生成
3 3 3 點選驗證碼的生成
3 4 CAPTCHA驗證碼識別
3 4 1 文本驗證碼識別方案
3 4 2 文本驗證碼識別方案
3 4 3 滑塊驗證碼的識別
3 4 4 點選驗證碼的識別
3 5 本章小結
3 6 本章練習
第4章 網路抓包與對抗
4 1 Fiddler
4 1 1 Fiddler的安裝配置與基礎功能使用
4 1 2 Fiddler的高級特性
4 2 Charles
4 3 Wireshark
4 4 SSLPinning保護機制下的網路數據抓包
4 4 1 配置自定義CA證書
4 4 2 添加抓包軟體證書到系統信任的CA證書列表
4 4 3 使用Hook技術
4 5 JustTrustMe的工作原理
4 5 1 SSLPinning機制的實現
4 5 2 JustTrustMe模塊Hook操作的實現原理
4 6 本章小結
4 7 本章練習
第5章 JavaScript逆向分析技術
5 1 常見的反爬蟲策略及其應對方案
5 1 1 基於訪問頻率的檢查與訪問限制
5 1 2 基於請求參數和請求頭信息的反爬蟲技術
5 1 3 基於蜜罐機制的反爬蟲技術
5 1 4 隱藏網頁的跳轉鏈接
5 2 瀏覽器指紋識別與修復
5 2 1 瀏覽器指紋識別的工作原理
5 2 2 瀏覽器指紋泄露
5 2 3 瀏覽器指紋泄露修復
5 3 JavaScript代碼保護技術
5 3 1 JavaScript代碼反調試技術
5 3 2 基於完整性檢測的代碼保護技術
5 3 3 限制JavaScript代碼執行環境
5 3 4 JavaScript代碼混淆技術
5 4 JavaScript抽象語法樹
5 4 1 抽象語法樹的結構
5 4 2 抽象語法樹的生成過程
5 4 3 操作抽象語法樹
5 4 4 操作抽象語法樹反混淆基礎實踐
5 5 JavaScriptHook技術
5 6 JavaScript逆向工程實踐
5 6 1 JavaScript反混淆實戰
5 6 2 JavaScriptHook技術實戰
5 7 本章小結
5 8 本章練習
第6章 App數據爬取與逆向分析
6 1 基於抓包分析的App數據爬取
6 2 基於Appium自動化框架的App數據採集
6 2 1 Appium簡介
6 2 2 Appium環境搭建
6 2 3 Appium2 x和Appium1 x
6 2 4 移動端Web爬蟲開發實踐
6 2 5 移動端NativeApp爬蟲開發實踐
6 2 6 移動端HybridApp爬蟲開發實踐
6 2 7 Appium開發環境的常見錯誤與處理技巧
6 3 Android應用程序靜態分析
6 3 1 Android應用程序基本結構剖析
6 3 2 Android應用程序構建過程
6 3 3 Smali代碼分析
6 4 Android應用程序動態分析
6 4 1 向Smali代碼中添加debug日誌
6 4 2 利用Frida框架進行逆向動態分析
6 5 二進位文件逆向分析
6 5 1 利用objdump逆向分析
6 5 2 利用IDA進行逆向靜態分析
6 5 3 利用IDA進行動態逆向分析
6 6 加殼與脫殼技術
6 6 1 相關基礎知識
6 6 2 加殼技術實現原理
6 6 3 脫殼技術實現原理
6 7 App逆向分析實戰一
6 8 App逆向分析實戰二
6 9 本章小結
6 10 本章練習
第7章 分散式爬蟲系統關鍵技術
7 1 常用的分散式架構模式
7 1 1 主從模式
7 1 2 自治模式
7 2 任務調度策略
7 2 1 基於數據分區的調度策略
7 2 2 基於資源感知的調度策略
7 2 3 基於優先順序的調度策略
7 2 4 基於自定義規則的調度策略
7 3 任務調度器
7 3 1 Quartz
7 3 2 ElasticJob
7 3 3 XXL-JO
詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。
規格說明
運送方式
已加入購物車
已更新購物車
網路異常,請重新整理