內容簡介
本書是數據工程師的實戰寶典!從實體消解基礎概念切入,系統拆解數據標準化、文本模糊匹配(Levenshtein距離、Metaphone算法)、概率模型(Fellegi-Sunter模型、貝葉斯因子)、聚類分塊等核心技術,更獨家涵蓋Splink框架、谷歌雲Dataproc集群部署、企業知識圖譜API等前沿工具。作者以真實金融反欺詐案例貫穿全書,手把手教學Python代碼實現,並前瞻隱私集合求交(PSI)等合規技術。經Splink工具作者Robin Linacre力薦,既是新手入門教材,也是資深從業者的技術進階手冊。作者簡介
邁克爾·希勒(Michael Shearer)是HAWK:AI公司的首席解決方案官,該公司致力於幫助金融機構偵測金融犯罪活動。作為滙豐銀行前董事總經理,他在2014-2023年間主導開發了一套合規系統。此外,邁克爾還在英國政府部門擁有20年的工作經驗,曾擔任多個關鍵的管理和技術角色。目錄
前言