*完成訂單後正常情形下約兩周可抵台。 *本賣場提供之資訊僅供參考,以到貨標的為正確資訊。 印行年月:202405*若逾兩年請先於私訊洽詢存貨情況,謝謝。 台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。 書名:數據質量管理-數據可靠性與數據質量問題解決之道 ISBN:9787111754114 出版社:機械工業 著編譯者:巴爾.摩西 利奧.加維什 頁數:256 所在地:中國大陸 *此為代購商品 書號:1639281 可大量預訂,請先連絡。 內容簡介 本書是一本關於如何清洗、整理和理解數據的手冊,還介紹了圍繞構建更可靠的數據系統的最佳實踐、技術和流程,並在此過程中培養團隊和利益相關方對數據的信任。本書首先引入「數據宕機」的概念,然後介紹如何跨多個關鍵數據管道技術構建更具彈性的數據系統。還介紹了數據可靠性工作流中的主動異常檢測與監測。深入探討在生產環境中實際應對和解決數據質量問題所需的步驟。討論數據團隊在大規模宣傳和普及數據質量時必須跨越的一些文化和組織障礙,並分享了幾個真實案例研究和與數據工程領域領軍人物的對話。作者簡介 巴爾·摩西(Barr Moses)是蒙特卡羅公司的首席執行官兼聯合創始人,該公司是數據可觀測性類別的創建者。在長達十年的數據職業生涯中,她曾擔任以色列空軍數據情報部隊指揮官、貝恩公司顧問和Gainsight公司運營副總裁。她主持了O'Reilly的第一門數據質量課程。目錄 前言第1章 為什麼數據質量值得關注 1 1 什麼是數據質量 1 2 構築當下 1 2 1 了解「數據宕機的增加」 1 2 2 促成當前形勢的其他行業趨勢 1 3 總結 第2章 對可靠數據系統的構建模塊進行組裝 2 1 了解事務型數據和分析型數據之間的差異 2 2 是什麼讓它們有所不同 2 3 數據倉庫與數據湖 2 3 1 數據倉庫:模式級別的表類型 2 3 2 數據湖:文件級別的操作 2 3 3 什麼是湖倉一體 2 3 4 在倉庫和湖之間同步數據 2 4 收集數據質量指標 2 4 1 什麼是數據質量指標 2 4 2 如何提取數據質量指標 2 4 3 使用查詢日誌了解數據倉庫中的數據質量 2 4 4 使用查詢日誌了解數據湖中的數據質量 2 5 設計數據 目錄 2 6 構建數據 目錄 2 7 總結 第3章 收集、清洗、轉換和測試數據 3 1 收集數據 3 1 1 應用程序日誌數據 3 1 2 API響應 3 1 3 感測器數據 3 2 清洗數據 3 3 批處理與流處理 3 4 流處理的數據質量 3 5 數據標準化 3 5 1 處理異構數據源 3 5 2 模式檢查和類型強制轉換 3 5 3 數據中的句法歧義與語義歧義 3 5 4 管理AWS Kinesis和Apache Kafka之間的事務型數據轉換 3 6 運行分析型數據轉換 3 6 1 確保ETL期間的數據質量 3 6 2 確保轉換期間的數據質量 3 7 警報和測試 3 7 1 dbt單元測試 3 7 2 Great Expectations單元測試 3 7 3 Deequ單元測試 3 8 使用 Apache Airflow 管理數據質量 3 8 1 調度程序的SLA 3 8 2 在Apache Airflow中安裝斷路器 3 8 3 SQL檢查運算符 3 9 總結 第4章 數據管道的監控和異常檢測 4 1 了解已知的未知和未知的未知 4 2 構建異常檢測的演算法 4 2 1 新鮮度監控 4 2 2 了解分佈 4 3 為模式和沿襲構建監控器 4 3 1 模式變更和沿襲的異常檢測 4 3 2 對沿襲進行可視化 4 3 3 調查數據異常 4 4 使用Python和機器學習擴展異常檢測 4 4 1 利用機器學習改進數據監控警報 4 4 2 假陽性和假陰性的解釋 4 4 3 提高精確率和召回率 4 4 4 通過數據監控檢測新鮮度事件 4 4 5 F分數 4 4 6 模型的準確率重要嗎 4 5 深入探究:其他有用的異常檢測方法 4 6 為數據倉庫和數據湖分別設計數據質量監控器 4 7 總結 第5章 為數據可靠性進行架構設計 5 1 在攝取數據時評估並維護高數據可靠性 5 2 度量和維護管道中的數據質量 5 3 了解下游的數據質量 5 4 構建數據平台 5 4 1 數據攝取 5 4 2 數據存儲和處理 5 4 3 數據轉換和建模 5 4 4 商業智能和分析 5 4 5 數據發現和治理 5 5 建立對數據的信任 5 5 1 數據可觀測性 5 5 2 評估數據質量的投資回報率 5 5 3 如何為數據設置SLA、SLO和SLI 5 6 案例分析:Blinkist 5 7 總結 第6章 解決大規模數據質量問題 6 1 在軟體研發過程中解決數據質量問題 6 2 數據事件管理 6 2 1 事件檢測 6 2 2 響應 6 2 3 根因分析 6 2 4 解決 6 2 5 不做指責的復盤 6 3 事件應對與緩解策略 6 3 1 建立事件管理的標準程序 6 3 2 為什麼數據事件指揮官如此重要 6 4 案例分析:PagerDuty公司的數據事件管理 6 4 1 PagerDuty的數據運營概況 6 4 2 PagerDuty的數據挑戰 6 4 3 使用DevOps的最佳實踐來規模化數據事件管理 6 5 總結 第7章 構建端到端的數據沿襲 7 1 為現代數據系統構建端到端欄位級別的沿襲 7 1 1 數據沿襲的基本要求 7 1 2 數據沿襲的設計 7 1 3 解析數據 7 1 4 構建用戶界面 7 2 案例分析:在福克斯公司構建數據可靠性 7 2 1 在與利益相關方打交道時,運用「可控自由」原則 7 2 2 投資于去中心化數據團隊 7 2 3 避免追逐閃亮的新科技,而應該選擇解決問題的技術 7 2 4 為實現自助式分析,要致力於建立數據信任 7 3 總結 第8章 推廣和普及數據質量 8 1 將「數據」視為產品 8 2 將數據視為產品的經驗 8 2 1 Convoy案例分析:數據即服務或輸出 8 2 2 Uber案例分析:數據產品經理的崛起 8 2 3 採用「數據即產品」的方法 8 3 在數據平台中建立信任 8 3 1 確保產品目標與業務目標保持一致 8 3 2 尋求適合的利益相關方的反饋與認可 8 3 3 優先考慮長期增長和可持續性,而非短期收益 8 3 4 為數據及其評估標準設定基準指標 8 3 5 了解何時構建、何時購買 8 4 分配數據質量所有權 8 4 1 首席數據官 8 4 2 商業智能分析師 8 4 3 分析工程師 8 4 4 數據科學家 8 4 5 數據治理主管 8 4 6 數據工程 詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。 |