實體消解指南-使用Python進行數據匹配 邁克爾.希勒 9787111783299 【台灣高等教育出版社】

圖書均為代購,正常情形下,訂後約兩周可抵台。
物品所在地:中國大陸
原出版社:機械工業
大陸簡體正版圖書,訂購後正常情形下約兩周可抵台。
NT$439
商品編號: 9787111783299
供貨狀況: 尚有庫存

此商品參與的優惠活動

加入最愛
商品介紹
*書籍均為代購,我們向大陸付款發訂後即無法取消,為避免造成不必要的損失,
下訂前請慎重考慮!下訂前請慎重考慮!謝謝。

*完成訂單後正常情形下約兩周可抵台
*本賣場提供之資訊僅供參考,以到貨標的為正確資訊。
印行年月:202506*若逾兩年請先於客服中心或Line洽詢存貨情況,謝謝。
台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。
書名:實體消解指南-使用Python進行數據匹配
ISBN:9787111783299
出版社:機械工業
著編譯者:邁克爾.希勒
頁數:182
所在地:中國大陸 *此為代購商品
書號:1741515
可大量預訂,請先連絡。

內容簡介

本書是數據工程師的實戰寶典!從實體消解基礎概念切入,系統拆解數據標準化、文本模糊匹配(Levenshtein距離、Metaphone算法)、概率模型(Fellegi-Sunter模型、貝葉斯因子)、聚類分塊等核心技術,更獨家涵蓋Splink框架、谷歌雲Dataproc集群部署、企業知識圖譜API等前沿工具。作者以真實金融反欺詐案例貫穿全書,手把手教學Python代碼實現,並前瞻隱私集合求交(PSI)等合規技術。經Splink工具作者Robin Linacre力薦,既是新手入門教材,也是資深從業者的技術進階手冊。

作者簡介

邁克爾·希勒(Michael Shearer)是HAWK:AI公司的首席解決方案官,該公司致力於幫助金融機構偵測金融犯罪活動。作為滙豐銀行前董事總經理,他在2014-2023年間主導開發了一套合規系統。此外,邁克爾還在英國政府部門擁有20年的工作經驗,曾擔任多個關鍵的管理和技術角色。

目錄

前言
第1章 實體消解入門
1 1 什麼是實體消解
1 2 實體消解的作用
1 3 實體消解的主要挑戰
1 3 1 姓名缺少唯一性
1 3 2 命名約定不一致
1 3 3 數據獲取不一致
1 3 4 示例
1 3 5 故意模糊處理
1 3 6 匹配組合
1 3 7 盲目匹配
1 4 實體消解過程
1 4 1 數據標準化
1 4 2 記錄分塊
1 4 3 屬性比較
1 4 4 匹配分類
1 4 5 聚類
1 4 6 規範化
1 4 7 示例
1 5 評估結果
1 6 正式開始
第2章 數據標準化
2 1 案例
2 2 設置環境
2 3 獲取數據
2 3 1 維基百科數據
2 3 2 TheyWorkForYou數據
2 4 清洗數據
2 4 1 清洗維基百科數據
2 4 2 清洗TheyWorkForYou數據
2 5 比較屬性
2 6 選區
2 7 評估結果
2 8 計算樣本
2 9 總結
第3章 文本匹配
3 1 編輯距離匹配
3 1 1 Levenshtein距離
3 1 2 Jaro相似度
3 1 3 Jaro-Winkler相似度
3 2 語音匹配
3 2 1 Metaphone算法
3 2 2 MRA算法
3 3 技術比較
3 4 案例
3 5 全面相似度比較
3 6 評估結果
3 7 總結
第4章 概率匹配
4 1 案例
4 2 單一屬性匹配概率
4 2 1 名字匹配概率
4 2 2 姓氏匹配概率
4 3 多屬性匹配概率
4 4 概率模型
4 4 1 貝葉斯定理
4 4 2 m值
4 4 3 u值
4 4 4 λ值
4 4 5 貝葉斯因子
4 4 6 Fellegi-Sunter模型
4 4 7 匹配權重
4 5 期望最大化算法
4 5 1 第一次迭代
4 5 2 第二次迭代
4 5 3 第三次迭代
4 6 Splink入門
4 6 1 配置Splink
4 6 2 Splink匹配結果
4 7 總結
第5章 記錄分塊
5 1 案例
5 2 獲取數據
5 2 1 維基百科數據
5 2 2 英國公司註冊署數據
5 3 數據標準化
5 3 1 維基百科數據
5 3 2 英國公司註冊署數據
5 4 記錄分塊與屬性比較
5 4 1 使用Splink進行記錄分塊
5 4 2 比較屬性
5 5 匹配分類
5 6 評估結果
5 7 總結
第6章 匹配公司
6 1 案例
6 2 獲取數據
6 3 數據標準化
6 3 1 英國公司註冊署數據
6 3 2 英國海事及海岸警衛署數據
6 4 記錄分塊與屬性比較
6 5 匹配分類
6 6 評估結果
6 7 匹配新實體
6 8 總結
第7章 聚類
7 1 簡單精確匹配聚類
7 2 近似匹配聚類
7 3 案例
7 3 1 獲取數據
7 3 2 數據標準化
7 4 記錄分塊與屬性比較
7 4 1 數據分析
7 4 2 期望最大化分塊規則
7 5 匹配分類與聚類
7 6 簇可視化
7 7 聚類分析
7 8 總結
第8章 使用谷歌雲平台進行擴展
8 1 谷歌雲設置
8 2 創建Dataproc集群
8 3 配置Dataproc集群
8 4 使用Spark進行實體消解
8 5 評估結果
8 6 整理工作
8 7 總結
第9章 實體消解雲服務
9 1 BigQuery簡介
9 2 企業知識圖譜 API
9 2 1 模式映射
9 2 2 消解作業
9 2 3 處理結果
9 2 4 實體消解Python客戶端
9 3 評估結果
9 4 總結
第10章 利用記錄關聯技術保護隱私
10 1 隱私集合求交簡介
10 2 PSI原理
10 3 基於ECDH的PSI協議
10 3 1 布隆過濾器
10 3 2 格倫布編碼集
10 4 案例:使用PSI
10 4 1 設置環境
10 4 2 伺服器代碼
10 4 3 客戶端代碼
10 4 4 完整的MCA和公司註冊署樣本示例
10 5 總結
第11章 進一步探討
11 1 數據問題探討
11 1 1 非結構化數據問題
11 1 2 數據質量問題
11 1 3 時效性問題
11 2 屬性比較
11 2 1 集合匹配
11 2 2 地理編碼位置匹配
11 2 3 匯總比較
11 3 后處理
11 4 圖形表示
11 5 實時性問題
11 6 評估結果
11 6 1 成對方法
11 6 2 基於簇的方法
11 7 實體消解的未來

詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於客服中心或Line或本社留言板留言,我們即儘速上架。
規格說明
大陸簡體正版圖書,訂購後正常情形下約兩周可抵台。
運送方式
已加入購物車
已更新購物車
網路異常,請重新整理