內容簡介
Azure Databricks是一款基於雲的大數據分析和機器學習平台,用於實現基於Apache Spark的數據處理,為快速增長的海量數據的處理和決策需求分析提供了良好的支撐。 本書詳細介紹基於Azure Databricks雲平台來使用Apache Spark完成大規模數據處理和分析的方法。本書總計11章,首先介紹大規模數據分析相關的概念;然後介紹受管的Spark及其與Databricks的關係,以及Databricks的版本差異和使用方法(涵蓋工作區、集群、筆記本、Databricks文件系統、數據導入/導出等內容);接著介紹使用SQL和Python分別實現數據分析的過程,數據提取、變換、載入、存儲、優化技巧等高階數據處理方法以及外部連接工具、生產環境集成等內容;最後探討了運行機器學習演算法、合併數據更新以及通過API運行Databricks、Delta流處理等高階主題。 作為數據分析領域的入門書,本書具有很強的實用性,可供數據工程師、數據分析師和決策分析人員等學習和參考。作者簡介
羅伯特·伊利傑森(Robert Ilijason),商務智能領域深耕20年的戰場老兵,曾擔任過歐洲一些大公司的外包人,並在零售、電信、銀行、政府機構等領域做過大規模數據分析項目。多年來,數據分析領域的各種風尚潮起潮落,但他深信雲端Apache Spark(尤其是與Databricks一起)與眾不同,將是遊戲規則的改變者。目錄
第1章 大規模數據分析簡介