內容簡介
本書是統計學的入門書,對同一個知識點分別使用文字說明、數學式和Python示例代碼進行講解,循序漸進地介紹了統計學和Python的基礎知識、描述統計、統計推斷、假設檢驗、正態線性模型和廣義線性模型等統計模型,以及機器學習等。通過閱讀本書,讀者不僅可以深刻理解統計學術語、統計分析方法和預測方法等,還可以學到前沿的機器學習知識,以及如何使用Python實現數據可視化和建模等。
本書結構清晰、直觀易懂,適合統計學和Python的初學者及對數據科學和機器學習感興趣的讀者使用,也可作為高等院校計算機、統計等專業學生的入門書。
作者簡介
[日]馬場真哉:出生於日本兵庫縣,2014年畢業于北海道大學水產科學院。分享統計學基礎與應用、數據分析和Python編程等知識的網站Logics of Blue的管理者。著有《用R學編程和數據分析》《用R和Stan入門數據分析:基於貝葉斯統計建模》《時序分析和狀態空間模型基礎:用R和Stan學習理論和實現》《從均值和方差入門廣義線性模型》《決策分析與預測的應用:從基礎理論到Python實現》等。
目錄
目 錄
第 1章 開始學習統計學1
1-1 統計學2
1-1-1 描述統計2
1-1-2 統計推斷3
1-2 描述統計的必要性4
1-2-1 為什麼需要描述統計4
1-2-2 均值存在的問題4
1-2-3 使用均值以外的指標5
1-2-4 數據可視化5
1-3 統計推斷的必要性6
1-3-1 為什麼需要統計推斷6
1-3-2 術語 總體與樣本6
1-3-3 術語 樣本容量7
1-3-4 推斷的形象描述7
1-3-5 樣本的隨機偏差與區間估計8
1-3-6 判斷與假設檢驗8
1-3-7 模型與推斷8
1-3-8 從線性模型到機器學習9
第 2章 Python與Jupyter Notebook基礎11
2-1 環境搭建12
2-1-1 術語 Python12
2-1-2 術語 Anaconda12
2-1-3 術語 Jupyter Notebook13
2-1-4 安裝Anaconda13
2-1-5 安裝早期版本的Anaconda13
2-1-6 術語 Python編程術語14
2-2 認識Jupyter Notebook15
2-2-1 啟動Jupyter Notebook15
2-2-2 創建新文件16
2-2-3 執行代碼17
2-2-4 保存執行結果17
2-2-5 使用Markdown功能18
2-2-6 退出Jupyter Notebook19
2-2-7 使用Anaconda Prompt19
2-3 Python編程基礎21
2-3-1 實現 四則運算21
2-3-2 實現 其他運算22
2-3-3 實現 注釋22
2-3-4 實現 數據類型23
2-3-5 實現 比較運算25
2-3-6 實現 變量25
2-3-7 實現 函數27
2-3-8 實現 常用的函數28
2-3-9 實現 類與實例30
2-3-10 實現 基於if語句的程序分支32
2-3-11 實現 基於for語句的循環33
2-3-12 編寫易用程序的技巧33
2-4 認識numpy與pandas35
2-4-1 實現 導入外部功能35
2-4-2 術語 numpy與pandas36
2-4-3 實現 列表36
2-4-4 實現 行與列36
2-4-5 實現 數組37
2-4-6 實現 數組的運算38
2-4-7 實現 二維數組38
2-4-8 實現 生成等差數列的方法39
2-4-9 實現 各類數組的生成40
2-4-10 實現 切片41
2-4-11 實現 數據幀43
2-4-12 實現 讀取文件中的數據44
2-4-13 實現 連接數據幀45
2-4-14 實現 取出指定的列46
2-4-15 實現 取出指定的行47
2-4-16 實現 序列49
2-4-17 實現 函數文檔50
第3章 描述統計51
3-1 數據的種類52
3-1-1 術語 觀察、變量52
3-1-2 術語 定量數據、分類數據53
3-1-3 術語 離散型數據、連續型數據53
3-1-4 術語 二值數據、多值數據53
3-1-5 術語 名義尺度、順序尺度、間距尺度、比例尺度54
3-1-6 術語 單變量數據、多變量數據55
3-1-7 術語 時間序列數據、橫截面數據55
3-2 讀懂數學式56
3-2-1 數學式作為表達方式56
3-2-2 用數學式表示樣本56
3-2-3 為什麼要使用數學式57
3-2-4 加法與Σ符號58
3-2-5 用數學式表示樣本均值58
3-2-6 乘法與Π符號59
3-3 頻數分佈60
3-3-1 為什麼要學習多種統計方法60
3-3-2 術語 頻數、頻數分佈61
3-3-3 術語 組、組中值61
3-3-4 實現 環境準備61
3-3-5 實現 頻數分佈62
3-3-6 術語 頻率分佈、累積頻數分佈、累積頻率分佈65
3-3-7 實現 頻率分佈、累積頻數分佈、累積頻率分佈65
3-3-8 術語 直方圖67
3-3-9 用於繪圖的matplotlib、seaborn67
3-3-10 實現 直方圖68
3-3-11 實現 組的大小不同的直方圖69
3-3-12 術語 核密度估計70
3-3-13 實現 核密度估計72
3-4 單變量數據的統計量75
3-4-1 實現 環境準備75
3-4-2 準備實驗數據75
3-4-3 實現 樣本容量77
3-4-4 實現 總和77
3-4-5 實現 樣本均值78
3-4-6 術語 樣本方差79
3-4-7 實現 樣本方差81
3-4-8 術語 無偏方差82
3-4-9 實現 無偏方差83
3-4-10 術語 標準差84
3-4-11 實現 標準差85
3-4-12 術語 變異係數85
3-4-13 實現 變異係數86
3-4-14 術語 標準化87
3-4-15 實現 標準化88
3-4-16 術語 最小值、最大值、中位數、四分位數89
3-4-17 實現 最小值、最大值89
3-4-18 實現 中位數90
3-4-19 實現 四分位數91
3-4-20 實現 眾數92
3-4-21 實現 pandas的describe函數93
3-5 多變量數據的統計量94
3-5-1 實現 環境準備94
3-5-2 實現 準備用於實驗的數據94
3-5-3 術語 協方差95
3-5-4 術語 協方差矩陣96
3-5-5 實現 協方差96
3-5-6 實現 協方差矩陣97
3-5-7 術語 皮爾遜積矩相關係數98
3-5-8 術語 相關矩陣98
3-5-9 實現 皮爾遜積矩相關係數99
3-5-10 相關係數無效的情況99
3-5-11 術語 列聯表100
3-5-12 實現 列聯表100
3-6 分層分析103
3-6-1 術語 分層分析103
3-6-2 術語 整潔數據103
3-6-3 術語 雜亂數據104
3-6-4 雜亂數據的例子105
3-6-5 實現 環境準備106
3-6-6 實現 讀取實驗數據106
3-6-7 實現 分組計算統計量107
3-6-8 實現 企鵝數據108
3-6-9 實現 企鵝數據的分層分析109
3-6-10 實現 缺失數據的處理110
3-6-11 實現 簡單直方圖112
3-6-12 實現 分組直方圖113
3-7 使用圖形114
3-7-1 實現 環境準備114
3-7-2 術語 matplotlib、seaborn114
3-7-3 實現 讀取實驗數據115
3-7-4 實現 散點圖117
3-7-5 實現 圖形的裝飾和保存117
3-7-6 實現 折線圖119
3-7-7 實現 條形圖119
3-7-8 實現 箱形圖120
3-7-9 實現 小提琴圖121
3-7-10 術語 軸級函數與圖級函數122
3-7-11 實現 基於種類和性別的小提琴圖124
3-7-12 實現 基於種類、島名和性別的小提琴圖125
3-7-13 實現 散點圖矩陣126
第4章 概率論與概率分佈127
4-1 什麼是概率論128
4-1-1 為什麼要學習概率論128
4-1-2
第4章 的內容脈絡129
4-1-3 術語 集合130
4-1-4 術語 元素130
4-1-5 術語 集合的外延表示與內涵表示130
4-1-6 術語 子集130
4-1-7 術語 維恩圖131
4-1-8 術語 交集與並集131
4-1-9 術語 差集132
4-1-10 術語 空集132
4-1-11 術語 全集133
4-1-12 術語 補集133
4-1-13 術語 樣本點、樣本空間、事件133
4-1-14 術語 互斥事件134
4-1-15 通過擲骰子聯想到的各種概率135
4-1-16 術語 概率的公理化定義135
4-1-17 用頻率解釋概率135
4-1-18 主觀概率學派136
4-1-19 術語 概率的加法定理137
4-1-20 術語 條件概率137
4-1-21 術語 概率的乘法定理138
4-1-22 術語 獨立事件139
4-2 什麼是概率分佈140
4-2-1 術語 隨機變量與樣本值140
4-2-2 術語 離散隨機變量與連續隨機變量141
4-2-3 術語 概率分佈141
4-2-4 術語 概率質量函數141
4-2-5 術語 均勻分佈(離散型)143
4-2-6 術語 概率密度144
4-2-7 術語 概率密度函數144
4-2-8 概率的總和與概率密度積分的聯繫145
4-2-9 術語 均勻分佈(連續型)147
4-2-10 術語 累積分佈函數147
4-2-11 均勻分佈的累積分佈函數148
4-2-12 術語 百分位數148
4-2-13 術語 期望值149
4-2-14 術語 隨機變量的方差151
4-2-15 均勻分佈的期望值與方差152
4-2-16 術語 多元概率分佈153
4-2-17 術語 聯合概率分佈154
4-2-18 術語 邊緣化、邊緣分佈154
4-2-19 術語 條件概率分佈155
4-2-20 術語 隨機變量的獨立155
4-2-21 二元概率分佈的例子156
4-2-22 術語 隨機變量的協方差與相關係數157
4-2-23 術語 獨立同分佈157
4-3 二項分佈159
4-3-1 術語 試驗159
4-3-2 術語 二值隨機變量159
4-3-3 術語 伯努利試驗160
4-3-4 術語 成功概率160
4-3-5 術語 伯努利分佈160
4-3-6 設計程序來模擬抽籤161
4-3-7 實現 環境準備161
4-3-8 實現 抽1張便箋的模擬161
4-3-9 實現 抽10張便箋的模擬163
4-3-10 實現 抽10張便箋並重複10 000 次的模擬165
4-3-11 術語 二項分佈167
4-3-12 實現 二項分佈168
4-3-13 實現 生成服從二項分佈的隨機數171
4-3-14 實現 二項分佈的期望值與方差172
4-3-15 實現 二項分佈的累積分佈函數173
4-3-16 實現 二項分佈的百分位數174
4-3-17 實現 二項分佈的右側概率175
4-4 正態分佈176
4-4-1 實現 環境準備176
4-4-2 術語 正態分佈176
4-4-3 實現 正態分佈的概率密度函數177
4-4-4 正態分