作者簡介 張敏,重慶工商大學講師。以第一作者公開發表了CSSCI、CSCD、SCI文章多篇,主持或參与國家及省部級課題多項,以第二作者出版關於數據科學的教材多部。
目錄 第1章 引言
1 1 作為科學的統計
1 1 1 統計是科學
1 1 2 模型驅動及數據驅動
1 2 數據及模型
1 2 1 數據中的信息
1 2 2 有監督學習模型
1 2 3 使用交叉驗證來評價和比較模型
1 2 4 有監督學習過程匯總
1 2 5 傳統統計模型和機器學習模型簡介
1 2 6 歷史:本來是數據驅動的統計變成模型驅動
1 2 7 今後:借用Donoho(2024)
1 3 關於軟體的說明
1 3 1 本書使用R和Python語言
1 3 2 本書中的自編函數
1 4 有監督學習傳統統計方法與機器學習方法的交叉驗證比較
1 4 1 傳統統計及機器學習回歸方法交叉驗證精度比較
1 4 2 傳統統計及機器學習二分類方法交叉驗證精度比較
1 4 3 傳統統計及機器學習多分類方法交叉驗證精度比較
1 5 習題
1 6 本章的R和Python代碼
1 6 1 1 4 1節的R和Python代碼
1 6 2 1 4 2節的R和Python代碼
1 6 3 1 4 3節的R和Python代碼
第2章 經典線性回歸
2 1 模型形式
2 1 1 回顧高中課程:自變數為一個數量變數的情況
2 1 2 自變數為多個數量變數的情況
2 1 3 「線性」是對係數而言的
2 2 用最小二乘法估計線性模型
2 2 1 一個數量自變數的情況
2 2 2 多個自變數的情況
2 2 3 自變數有分類變數的情況*
2 3 回歸係數的大小沒有可解釋性
2 3 1 「皇帝的新衣」
2 3 2 最小二乘線性回歸僅是眾多回歸方法之一,過多的延伸是浪費
2 4 傳統統計關於線性回歸係數的性質和推斷*
2 4 1 基本假定
2 4 2 關於H0:βi=0H1:βi≠0的t檢驗
2 4 3 關於多自變數係數複合假設F檢驗及方差分析表
2 4 4 分類變數的顯著性必須從方差分析表看出
2 4 5 關於「殘差的檢驗及點圖」
2 5 通過一個「教材數據」來理解簡單最小二乘回歸
2 5 1 幾種競爭的線性模型
2 5 2 孤立看模型可能會產生多個模型都「正確」的結論
2 5 3 多個模型相比較以得到相對較好的模型
2 5 4 對例2 6喂毒素數據的6個模型做預測精度的交叉驗證
2 6 處理線性回歸多重共線性的經典方法*
2 6 1 多重共線性
2 6 2 自變數子集選擇
2 6 3 嶺回歸
2 6 4 lasso回歸
2 6 5 適應性lasso回歸
2 6 6 通過例2 7擊球手數據比較幾種方法的預測精度
2 7 損失函數及分位數回歸簡介*
2 7 1 損失函數
2 7 2 恩格爾數據例子的分位數回歸
2 8 習題
2 9 本章的R和Python代碼
2 9 1 2 2節的代碼
2 9 2 2 3節的代碼
2 9 3 2 4節的代碼
2 9 4 2 5節的Python代碼
2 9 5 2 6節的代碼
2 9 6 2 7節的代碼
第3章 廣義線性模型
3 1 模型
3 2 指數分佈族及典則連接函數
3 3 似然函數和准似然函數
3 3 1 似然函數和記分函數
3 3 2 廣義線性模型的記分函數
3 3 3 准記分函數、准對數似然函數及准似然估計
3 4 廣義線性模型的一些推斷問題
3 4 1 最大似然估計和Wald檢驗
3 4 2 偏差和基於偏差的似然比檢驗
3 4 3 散布參數的估計
3 5 logistic回歸和二元分類問題
3 5 1 logistic回歸(probit回歸)
3 5 2 用logistic回歸做分類
3 6 Poisson對數線性模型及頻數數據的預測*
3 6 1 Poisson對數線性模型
3 6 2 使用Poisson對數線性模型的一些問題
3 6 3 Poisson對數線性模型的預測及交叉驗證
3 7 習題
3 8 本章的Python代碼
3 8 1 3 5節的代碼
3 8 2 3 6節的代碼
第4章 機器學習:有監督學習
4 1 引言
4 2 決策樹
4 2 1 決策樹的基本構造
4 2 2 決策樹是把因變數數據變純的過程
4 2 3 一個真實數據的決策樹回歸實踐
4 2 4 決策樹回歸和線性回歸的比較和交叉驗證
4 2 5 一個真實數據的決策樹分類實踐
4 3 集成算法的思想
4 3 1 基本思想
4 3 2 集成算法及自助法抽樣
4 4 bagging方法
4 4 1 概述
4 4 2 一個真實數據的bagging回歸實踐
4 4 3 例4 3慢性腎病數據的bagging分類實踐
4 5 隨機森林
4 5 1 概述
4 5 2 例4 5能源效率數據的隨機森林回歸
4 5 3 例4 6進口汽車數據的隨機森林分類
4 6 AdaBoost分類
4 6 1 概述
4 6 2 對例4 3慢性腎病數據的分類及變數重要性
4 6 3 使用AdaBoost預測
4 6 4 用自帶函數做交叉驗證
4 6 5 分類差額
4 7 mboost回歸
4 7 1 概述
4 7 2 例子及擬合全部數據
4 7 3 對例4 6進口汽車數據做幾種方法的交叉驗證
4 8 Xgboost模型
4 8 1 模型概述
4 8 2 對例4 7皮膚病數據做Xgboost分類
4 8 3 對例4 8服裝業生產率數據做Xgboost回歸
4 9 神經網絡
4 9 1 神經網
詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於客服中心或Line或本社留言板留言,我們即儘速上架。