內容簡介
這本書先介紹了如何使用Ppandas在Python中進行數據操作,教您熟悉統計分析和繪圖技術。還將通過多個實踐測試,讓您學會使用Dask分析分佈在多台計算機上的數據。接著還將為您介紹如何在內存無法容納全部數據時,為繪圖聚合數據。本書還將帶領您探索Hadoop(HDFS和YARN),它可幫助您處理更大的數據集。此外,這本書還介紹了Spark相關知識,並解釋了它如何與其他工具進行交互。 Python大數據分析是為Python開發人員、數據分析師和數據科學家設計的,他們需要親自動手控制數據並將其轉化為有影響力的見解。書中關於統計度量和關係資料庫的基本知識將幫助您理解在本書中的各種概念。目錄
第1章 Python數據科學堆棧