內容簡介
本書是數據分析類課程的入門教材,系統整理了數據分析的知識體系,以分析流程為主線闡述了數據分析的主要方法和基於Python的技術應用。
全書共分為9章,包括數據分析簡介,數據分析的方法,NumPy和pandas基礎,數據獲取與導入,數據預處理,數據探索,數據挖掘概述,基本統計圖形,文本、網路和地理空間可視化。從第2章開始,在闡述基礎知識的同時設計了大量例題,按照「分析需求→Python代碼展示→例題解析→運行結果」的模式對知識點進行剖析。全書提供習題、答案及程序源碼。
本書可作為普通高等院校數據分析處理相關課程的學生的教材使用,也可供剛剛步入數據分析領域的從業人員參考。
目錄
第1章數據分析簡介
1 1開篇案例
1 2認識數據
1 2 1數據
1 2 2數據類型
1 3認識數據分析
1 3 1數據管理的產生和發展
1 3 2機器學習與人工智能
1 4數據分析步驟
1 5數據分析作用
1 6常用數據分析工具
1 7數據分析思維
小結
習題
第2章數據分析的方法
2 1針對現狀分析的數據分析方法
2 1 1對比分析法
2 1 2分組分析法
2 1 3結構分析法
2 1 4平均分析法
2 1 5綜合評價分析法
2 2針對原因分析的數據分析方法
2 2 1交叉分析法
2 2 2漏斗分析法
2 2 3矩陣關聯分析法
2 2 4聚類分析法
2 2 5帕累托分析法
2 3針對預測分析的數據分析方法
2 3 1回歸分析法
2 3 2時間序列分析法
2 3 3決策樹分析法
2 3 4神經網絡分析法
小結
習題
第3章NumPy和pandas基礎
3 1NumPy基礎
3 1 1ndarray數組的創建
3 1 2ndarray的常用屬性
3 1 3ndarray的數據類型
3 1 4ndarray的算術操作
3 1 5ndarray的索引和切片
3 1 6對軸的理解
3 2pandas基礎
3 2 1pandas數據結構
3 2 2索引重命名與重新索引
3 2 3數據基本操作
小結
習題
第4章數據獲取與導入
4 1數據獲取
4 2網路爬蟲
4 2 1網頁結構
4 2 2爬蟲的流程
4 2 3爬蟲Robots協議
4 3數據導入與導出
4 3 1一般文件
4 3 2CSV文件
4 3 3Excel文件
4 3 4JSON文件
4 3 5資料庫
小結
習題
第5章數據預處理
5 1數據預處理的必要性
5 2數據清洗
5 2 1重複值檢測與處理
5 2 2缺失值檢測與處理
5 2 3雜訊檢測與處理
5 3數據集成
5 3 1實體識別問題
5 3 2數據列冗餘問題
5 3 3數據值衝突問題
5 4數據規約
5 4 1策略概述
5 4 2屬性子集選擇
5 4 3抽樣
5 5數據變換
5 5 1數據合併
5 5 2數據抽取
5 5 3數據計算
小結
習題
第6章數據探索
6 1基本統計描述
6 1 1集中趨勢
6 1 2離散程度
6 1 3分佈形狀
6 2數據分組與聚合分析
6 2 1數據分組
6 2 2數據聚合
6 3交叉分析
6 3 1數據透視表
6 3 2數據交叉表
6 4參數估計及假設檢驗
6 4 1參數估計
6 4 2假設檢驗
6 5相關分析
6 5 1簡單相關分析
6 5 2偏相關分析
6 5 3非參數相關分析
小結
習題
第7章數據挖掘概述
7 1什麼是數據挖掘
7 2數據挖掘問題與任務
7 3分類分析
7 3 1預備知識
7 3 2解決分類問題的一般方法
7 3 3代表性方法之一: K最近鄰演算法
7 3 4評估分類器性能的度量
7 4關聯分析
7 4 1購物籃分析
7 4 2頻繁項集和關聯規則
7 4 3基於Python的Apriori演算法
7 4 4關聯模式的評估
7 5聚類分析
7 5 1什麼是聚類分析
7 5 2基本的聚類方法
7 5 3代表性方法之一: k均值
7 5 4聚類評估
小結
習題
第8章基本統計圖形
8 1Matplotlib繪圖
8 1 1圖形基本設置
8 1 2基本統計圖形
8 2pandas繪圖
8 3Seaborn繪圖
8 3 1單變數數據分佈
8 3 2雙變數數據分佈
8 3 3多變數數據分佈
小結
習題
第9章文本、網路和地理空間可視化
9 1文本可視化
9 1 1分詞
9 1 2詞雲
9 2網路圖可視化
9 2 1網路與圖
9 2 2NetworkX繪圖
9 3地理空間可視化
9 3 1GeoPandas和Basemap
9 3 2分級統計地圖
9 3 3點描法地圖
9 3 4帶氣泡的地圖
小結
習題
參考文獻
前言/序言
大數據時代下,以信息技術為支撐的數據分析與研究方法正深刻地改變著傳統科學探索的工作方式,成為人類科技發展與知識獲取的一種新興模式。為了使堆積如山的數據能更好地被人們利用,需要對數據進行有意義的處理。大數據時代對人類的數據駕馭能力提出了新的挑戰,也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。因此,尋求有效的數據處理技術和方法已經成為現實的迫切需求。
本書的寫作目的是使讀者了解數據分析的基礎理論,掌握運用Python進行科學計算、數據處理、分析和可視化的方法,具備處理和解決大量數據問題的能力。全書共分為9章,如表01所示。
表01全書知識體系
知 識 體 系章節
基礎知識
第1章 數據分析簡介
第2章 數據分析的方法
第3章 NumPy和pandas基礎
數據分析技術
第4章 數據獲取與導入
第5章 數據預處理
第6章 數據探索
第7章 數據挖掘概述
數據可視化
第8章 基本統計圖形
第9章 文本、網路和地理空間可視化
1 基礎知識
第1章數據分析簡介,介紹數據、數據分析等基本概念以及數據分析的作用、步驟和常用工具等;第2章介紹數據分析方法;第3章是Python中常用的NumPy和pandas數據分析包。
2 數據分析技術
第4~7章以Python為基礎介紹數據的主要分析技術。第4章主要介紹數據獲取、網路爬蟲以及不同種類文件的導入、導出方式;第5章介紹數據預處理的主要步驟和相關方法,包括數據清洗、數據集成、數據規約和數據變換等;第6章闡述數據探索的主要方法,包括基本描述性統計、分組與聚合分析、參數估計、假設檢驗和相關性分析等;第7章介紹數據挖掘的概念、問題與任務,以及從基礎知識、代表性演算法、評估分析等方面,重點介紹了數據挖掘常用的分析方法,包括分類分析、關聯分析和聚類分析。
3 數據可視化
第8章介紹了基於Python的三種常用繪圖包,分別是Matplotlib、pandas和Seaborn,可繪製的圖形類型包括線圖、直方圖、條形圖、龍捲風圖、餅圖、散點圖、氣泡圖、箱線圖、雷達圖和數據分布圖等。第9章概要介紹了網路圖、文本數據、地理數據等非數值型數據的可視化方法。
書中每章的最後都給出了配套的習題,便於教師教學和測試,學生鞏固知識點並啟發全面思考。
與現有以介紹Python編程語法、數據挖掘與機器學習理論的書籍不同,本書是數據分析類課程的入門教材,系統整理了數據分析的知識體系,以分析流程為主線闡述了數據分析的主要方法和基於Python的技術應用。從第2章開始,在闡述基礎知識的同時設計了大量例題,按照「分析需求→Python代碼展示→例題解析→運行結果」的思路對知識點進行剖析。設計的例題有助於教師授課和學生自學理解。採用較受歡迎的編程語言Python作為分析工具,代碼簡潔、易讀性好,且易上手。全書提供習題、答案及源碼。建議至少進行32學時的授課和學習。
本書可作為普通高等院校數據分析處理相關課程的學生的教材使用,也可供剛剛步入數據分析領域的從業人員參考。
本書由潘曉、吳雷、王書海編著,第1~3章、第7~9章由潘曉編寫,第4~6由吳雷編寫,全書由潘曉負責統稿定稿。本書在撰寫過程中參考了如維基百科、知乎、CSDN等互聯網上優秀的資料。此外,特別感謝實驗室的博士生和碩士生們進行的資料收集與整理,其中包括董慧、姜夢、鹿東娜和杜一凡,感謝石家莊鐵道大學信息管理與信息系統專業的2018級和2019級學生作為第一批讀者完成的勘誤工作。感謝河北省自然科學基金項目(F2021210005)、河北省重點研發項目(21340301D)、河北省省級科技計劃資助項目(21550803D)、河北省教育廳青年拔尖項目(BJ2021085)項目的支持。
感謝清華大學出版社在全書的校對和編輯出版過程中付出的巨大努力。由於作者水平有限,書中如有疏漏之處敬請讀者提出寶貴意見。
潘曉2022年12月