| *完成訂單後正常情形下約兩周可抵台。 *本賣場提供之資訊僅供參考,以到貨標的為正確資訊。 印行年月:202411*若逾兩年請先於私訊洽詢存貨情況,謝謝。 台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。 書名:Java網絡爬蟲精解與實踐 ISBN:9787302674849 出版社:清華大學 著編譯者:張凱 頁數:281 所在地:中國大陸 *此為代購商品 書號:1686323 可大量預訂,請先連絡。 內容簡介 本書全面而系統地介紹與網路爬蟲程序相關的理論知識,並包含大量的實踐操作案例。 本書共分為8章。第1章以自動化框架為基礎,介紹網路爬蟲程序的入門開發實踐。第2章深入講解網頁內容的處理、解析技術和數據提取方法。第3章討論驗證碼識別技術以及如何有效繞過驗證碼的策略。第4章涉及網路抓包技術及其對抗策略。第5章深入探討JavaScript代碼的混淆技術與逆向分析方法。第6章專註于移動端應用程序的數據爬取技術及相關逆向分析技術。第7章介紹構建分散式網路爬蟲系統所需的關鍵技術。第8章通過實戰案例,展示分散式網路爬蟲系統設計與實現的思路。通過學習本書,讀者將顯著提升網路爬蟲系統的設計與實現能力,並增強對網頁代碼及移動端應用程序代碼的逆向分析水平。 本書的內容不僅涵蓋理論知識,還注重實踐操作,適合廣大網路爬蟲程序開發愛好者閱讀。同時,本書也適合作為培訓機構和學校的教學參考用書。作者簡介 張凱 中國科學院大學軟體工程專業碩士,研究方向為操作系統虛擬化,畢業后先後供職于微策略、新浪微博,目前供職于粉筆科技,任技術總監職務,擔任爬蟲平台、內容審核平台等多個重要系統技術負責人。對網路爬蟲、高可用架構設計和文本分類領域有著深入研究。目錄 第1章 網路爬蟲開發入門實踐1 1 Java網路爬蟲框架概覽 1 2 搭建開發環境 1 2 1 搭建Java開發環境 1 2 2 搭建Selenium開發環境 1 3 簡單Web爬蟲程序示例 1 3 1 獲取網頁內容並列印 1 3 2 利用XPath獲取指定元素 1 3 3 單擊搜索按鈕 1 3 4 獲取iframe元素中的數據 1 3 5 使用更加優雅的等待方式 1 3 6 實現屏幕截圖 1 3 7 執行JavaScript腳本 1 4 WebDriver選項配置 1 4 1 瀏覽器通用選項配置 1 4 2 Chrome瀏覽器特定選項配置 1 4 3 ChromeDevToolsProtocol 1 5 BrowserMobProxy 1 6 其他主流Web自動化測試框架 1 6 1 Puppeteer 1 6 2 Playwright 1 7 本章小結 1 8 本章練習 第2章 網頁內容解析與提取 2 1 Selenium元素定位器 2 2 基於正則表達式的內容解析與提取 2 2 1 正則表達式的基礎語法 2 2 2 正則表達式的高級應用技巧 2 2 3 正則表達式的應用場景 2 3 基於JsonPath的內容解析與提取 2 4 本章小結 2 5 本章練習 IVJava網路爬蟲精解與實踐 第3章 驗證碼繞過與識別 3 1 驗證碼介紹 3 1 1 基於文本識別的驗證碼 3 1 2 基於圖片識別的驗證碼 3 1 3 基於語音識別的驗證碼 3 1 4 基於行為識別的智能驗證碼 3 2 避免CAPTCHA驗證碼觸發 3 3 CAPTCHA驗證碼生成 3 3 1 文本驗證碼的生成 3 3 2 滑塊驗證碼的生成 3 3 3 點選驗證碼的生成 3 4 CAPTCHA驗證碼識別 3 4 1 文本驗證碼識別方案 3 4 2 文本驗證碼識別方案 3 4 3 滑塊驗證碼的識別 3 4 4 點選驗證碼的識別 3 5 本章小結 3 6 本章練習 第4章 網路抓包與對抗 4 1 Fiddler 4 1 1 Fiddler的安裝配置與基礎功能使用 4 1 2 Fiddler的高級特性 4 2 Charles 4 3 Wireshark 4 4 SSLPinning保護機制下的網路數據抓包 4 4 1 配置自定義CA證書 4 4 2 添加抓包軟體證書到系統信任的CA證書列表 4 4 3 使用Hook技術 4 5 JustTrustMe的工作原理 4 5 1 SSLPinning機制的實現 4 5 2 JustTrustMe模塊Hook操作的實現原理 4 6 本章小結 4 7 本章練習 第5章 JavaScript逆向分析技術 5 1 常見的反爬蟲策略及其應對方案 5 1 1 基於訪問頻率的檢查與訪問限制 5 1 2 基於請求參數和請求頭信息的反爬蟲技術 5 1 3 基於蜜罐機制的反爬蟲技術 5 1 4 隱藏網頁的跳轉鏈接 5 2 瀏覽器指紋識別與修復 5 2 1 瀏覽器指紋識別的工作原理 5 2 2 瀏覽器指紋泄露 5 2 3 瀏覽器指紋泄露修復 5 3 JavaScript代碼保護技術 5 3 1 JavaScript代碼反調試技術 5 3 2 基於完整性檢測的代碼保護技術 5 3 3 限制JavaScript代碼執行環境 5 3 4 JavaScript代碼混淆技術 5 4 JavaScript抽象語法樹 5 4 1 抽象語法樹的結構 5 4 2 抽象語法樹的生成過程 5 4 3 操作抽象語法樹 5 4 4 操作抽象語法樹反混淆基礎實踐 5 5 JavaScriptHook技術 5 6 JavaScript逆向工程實踐 5 6 1 JavaScript反混淆實戰 5 6 2 JavaScriptHook技術實戰 5 7 本章小結 5 8 本章練習 第6章 App數據爬取與逆向分析 6 1 基於抓包分析的App數據爬取 6 2 基於Appium自動化框架的App數據採集 6 2 1 Appium簡介 6 2 2 Appium環境搭建 6 2 3 Appium2 x和Appium1 x 6 2 4 移動端Web爬蟲開發實踐 6 2 5 移動端NativeApp爬蟲開發實踐 6 2 6 移動端HybridApp爬蟲開發實踐 6 2 7 Appium開發環境的常見錯誤與處理技巧 6 3 Android應用程序靜態分析 6 3 1 Android應用程序基本結構剖析 6 3 2 Android應用程序構建過程 6 3 3 Smali代碼分析 6 4 Android應用程序動態分析 6 4 1 向Smali代碼中添加debug日誌 6 4 2 利用Frida框架進行逆向動態分析 6 5 二進位文件逆向分析 6 5 1 利用objdump逆向分析 6 5 2 利用IDA進行逆向靜態分析 6 5 3 利用IDA進行動態逆向分析 6 6 加殼與脫殼技術 6 6 1 相關基礎知識 6 6 2 加殼技術實現原理 6 6 3 脫殼技術實現原理 6 7 App逆向分析實戰一 6 8 App逆向分析實戰二 6 9 本章小結 6 10 本章練習 第7章 分散式爬蟲系統關鍵技術 7 1 常用的分散式架構模式 7 1 1 主從模式 7 1 2 自治模式 7 2 任務調度策略 7 2 1 基於數據分區的調度策略 7 2 2 基於資源感知的調度策略 7 2 3 基於優先順序的調度策略 7 2 4 基於自定義規則的調度策略 7 3 任務調度器 7 3 1 Quartz 7 3 2 ElasticJob 7 3 3 XXL-JO 詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。 |