內容簡介
本書詳細闡述了大數據領域數據採集與預處理的相關理論和技術。全書共8章,內容包括概述、大數據實驗環境搭建、網絡數據採集、分散式消息系統Kafka、日誌採集系統Flume、數據倉庫中的數據集成、ETL工具Kettle、使用pandas進行數據清洗。本書包含豐富的實踐操作和應用案例,以幫助讀者更好地學習和掌握數據採集與預處理的關鍵技術。 本書可以作為高等院校大數據專業的大數據課程教材,也可供相關技術人員參考。作者簡介
林子雨(1978—),男,博士,廈門大學計算機科學系助理教授,廈門大學雲計算與大數據研究中心創始成員,廈門大學資料庫實驗室負責人,中國計算機學會資料庫專委會委員,中國計算機學會信息系統專委會委員。於2001年獲得福州大學水利水電專業學士學位,2005年獲得廈門大學計算機專業碩士學位,2009年獲得北京大學計算機專業博士學位。中國高校首個「數字教師」提出者和建設者,2009年至今,「數字教師」大平台累計向網絡免費發布超過100萬字高價值的教學和科研資料,累計網絡訪問量超過100萬次。 主要研究方向為資料庫、數據倉庫、數據挖掘、大數據和雲計算,發表期刊和會議學術論文多篇,並作為課題組負責人承擔了國家自然科學基金和福建省自然科學基金項目。曾作為志願者翻譯了Google Spanner、BigTable和《Architecture of a Database System》等大量英文學術資料,與廣大網友分享,深受歡迎。2013年在廈門大學開設大數據課程,並因在教學領域的突出貢獻和學生的認可,成為2013年度廈門大學教學類獎教金獲得者。目錄
第1章 概述目錄
的許可權