內容簡介
數據湖和數據倉庫隨著數據量的增長和數據流動的加快,變得越來越脆弱、成本高昂且難以維護。數據網格可以幫助你的組織去中心化數據,將數據所有權歸還給生產數據的工程師。本書提供了一個關於流式和實時數據服務的數據網格模式的簡潔而全面的概述。 本書作者探討了流式和批處理數據網格之間的巨大差異。數據工程師、架構師、數據產品所有者,以及DevOps和MLOps角色的人員將學習實施流式數據網格的步驟,從定義數據域到構建良好的數據產品。在本書的學習過程中,你將創建一個完整的自助式數據平台,並設計出一個數據治理系統,使你的數據網格能夠無縫運行。 通過這本書,你將學習以下知識: 使用Kafka設計一個流式數據網格。 學習如何識別數據域。 使用自助工具構建你的第一個數據產品。 將數據治理應用於你創建的數據產品中。 了解同步和非同步數據服務之間的差異。 實現支持去中心化數據的自助服務。作者簡介
斯蒂芬·穆尼是一名獨立的數據科學家和數據工程師。他曾在醫療保健、零售和公共部門的大公司工作過。目錄
前言目錄
來組織數據產品