| *完成訂單後正常情形下約兩周可抵台。 *本賣場提供之資訊僅供參考,以到貨標的為正確資訊。 印行年月:202411*若逾兩年請先於私訊洽詢存貨情況,謝謝。 台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。 書名:Python數據科學加速-Dask Ray Xorbits mpi4py ISBN:9787302675181 出版社:清華大學 著編譯者:魯蔚征 秦續業 頁數:227 所在地:中國大陸 *此為代購商品 書號:1688646 可大量預訂,請先連絡。 【台灣高等教育出版社簡體書】 Python數據科學加速-Dask Ray Xorbits mpi4py 787302675181 魯蔚征 秦續業 內容簡介 當前,數據驅動的理念已滲透到各個領域,數據科學和人工智慧技術在製造業、金融、教育等多個行業中得到了廣泛應用。Python作為一種編程語言,已成為數據科學和人工智慧領域的事實標準,它豐富的生態系統進一步增強了它在這些領域中的重要性。然而,隨著數據量的不斷增長,如何利用Python加速數據科學處理,並將它擴展到集群上的并行計算,已成為數據科學家面臨的重要挑戰。本書詳細介紹了4種數據科學工具:Dask、Ray、Xorbits和mpi4py,這些工具可以幫助數據工程師和科學家處理更大規模的數據集、訓練更複雜的模型,並更高效地進行機器學習模型的迭代和部署。 本書面向具備一定數據科學基礎的數據工程師、數據科學家或領域專家,同時也適合大學生和研究生作為進入高性能數據科學領域的入門讀物。作者簡介 魯蔚征,畢業於北京大學,曾在小米大數據部等多家互聯網頭部公司工作,負責過多款單日活躍用戶數千萬級的App,積累了大量一線開發經驗;現為中國人民大學教師,校級計算平台技術負責人,主要研究大數據和高性能計算,具有豐富的工業界系統開發和運維實戰經驗。 作者在微信公眾號、知乎、今日頭條等媒體平台開設名為「皮皮魯的科技星球」的技術專欄,專欄分享大量大數據和人工智慧新技術實戰文章,擅長使用企業實際業務場景舉例,輔以大量原創圖片,將技術問題可視化,獲得大量好評,多個平台專欄閱讀量達百萬級。目錄 第1章 并行計算基礎1 1 現代計算機體繫結構 1 1 1 CPU 1 1 2 網卡 1 1 3 異構計算 1 2 串列執行與并行執行 1 3 線程和進程 1 3 1 進程與線程 1 3 2 線程安全 1 3 3 全局解釋器鎖 1 4 并行程序設計方法 1 4 1 PCAM 1 4 2 切分方式 1 4 3 案例:MapReduce 1 5 性能指標 1 5 1 FLOPS 1 5 2 加速比 第2章 數據科學 2 1 數據科學生命周期 2 1 1 理解業務 2 1 2 理解數據 2 1 3 準備數據 2 1 4 建模 2 1 5 驗證 2 1 6 部署 2 1 7 小結 2 2 機器學習 2 2 1 機器學習的定義 2 2 2 線性回歸 2 2 3 邏輯回歸 2 3 深度學習 2 3 1 深度神經網路 2 3 2 前向傳播 2 3 3 反向傳播 2 3 4 超參數 2 3 5 實現細節 2 3 6 推理 2 4 超參數調優 2 4 1 搜索演算法 2 4 2 調度器 2 4 3 種群訓練 2 5 軟體生態與本書內容 2 5 1 Python軟體生態 2 5 2 本書內容 2 5 3 本書案例 第3章 Dask 3 1 Dask簡介 3 2 Dask DataFrame快速入門 3 2 1 創建Dask DataFrame 3 2 2 執行計算 3 2 3 索引 3 2 4 Pandas兼容 3 2 5 計算圖 3 3 將Dask擴展到集群 3 3 1 Dask集群 3 3 2 LocalCluster 3 3 3 使用命令行啟動一個Dask集群 3 3 4 Python環境和依賴包管理 3 3 5 SSH、Kubernetes和高性能計算集群 3 3 6 自動縮放 3 3 7 Dask Nanny 3 4 GPU 3 4 1 Dask GPU集群 3 4 2 GPU任務 3 5 Task Graph與數據切分 3 5 1 Task Graph 3 5 2 數據切分 3 5 3 數據切分粒度 3 5 4 迭代式演算法 3 5 5 設置正確的數據塊大小 第4章 Dask DataFrame 4 1 讀寫數據 4 1 1 文件系統 4 1 2 數據切分與并行讀取 4 1 3 數據表模式推理 4 1 4 Parquet 4 2 索引 4 2 1 有序行索引 4 2 2 設置索引列 4 3 map_partitions 案例:紐約計程車數據 4 4 Shuffle 4 4 1 Shuffle的實現機制 4 4 2 數據重分佈 4 4 3 案例分析:groupby 4 5 基於Dask的數據分析案例 4 5 1 案例:自行車數據分析 4 5 2 案例:人口普查信息 第5章 Dask機器學習 5 1 數據預處理 5 2 超參數調優 5 2 1 Scikit-learn joblib 5 2 2 Dask-ML API 5 3 分散式機器學習 5 3 1 Scikit-learn API 5 3 2 XGBoost和LightGBM 第6章 Ray 6 1 Ray簡介 6 2 分散式函數 6 2 1 啟動Ray集群 6 2 2 案例:斐波那契數列 6 2 3 原生Python函數與Ray的區別 6 2 4 案例:分散式圖像處理 6 3 分散式對象存儲 6 3 1 ray put()與ray get() 6 3 2 案例:對數據進行轉換 6 3 3 傳遞參數 6 3 4 底層實現 6 4 分散式類 6 4 1 案例:分散式計數器 6 4 2 Actor編程模型 6 4 3 案例:排行榜 6 4 4 案例:Actor Pool 第7章 Ray集群 7 1 Ray集群概述 7 1 1 Ray集群簡介 7 1 2 啟動Ray集群 7 2 計算資源與資源組 7 2 1 計算資源 7 2 2 資源需求 7 2 3 其他資源 7 2 4 自動縮放 7 2 5 Placement Group 7 3 Ray作業 7 3 1 Ray Jobs命令行 7 3 2 Python SDK 7 3 3 Ray客戶端 第8章 Ray Data 8 1 Ray Data簡介 8 1 1 關鍵概念 8 1 2 Dataset 8 1 3 數據操作與底層實現 8 2 數據載入、查看與保存 8 2 1 載入數據 8 2 2 查看數據 8 2 3 迭代數據 8 2 4 保存數據 8 3 數據轉換 8 3 1 轉換 8 3 2 分組 8 4 Preprocessor 8 5 Modin 8 5 1 API的兼容性 8 5 2 立即執行 8 5 3 執行引擎 8 5 4 案例:紐約市計程車數據分析 第9章 Ray機器學習 9 1 RayTrain 9 1 1 關鍵步驟 9 1 2 案例:圖像分類 9 1 3 與原生PyTorch的區別 9 1 4 數據讀取 9 1 5 ScalingConfig 9 1 6 監控 9 1 7 Checkpoint 9 2 Ray Tune 9 2 1 關鍵組件 9 2 2 Trainable函數 9 2 3 搜索空間 9 2 4 搜索演算法和調度器 9 2 5 案例:飛機延誤預測 9 2 6 案例:基於PBT進行圖像分類 9 3 Ray Serve 9 3 1 關鍵概念 9 3 2 案例:大語言模型推理 第10章 Xorbits 10 1 XorbitsData 10 1 1 Xorbits集群 10 1 2 API兼容性 10 1 3 推遲執行 10 2 Xinference 10 2 1 推理引擎 10 2 2 集群 10 2 3 使用模型 10 詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。 |