*完成訂單後正常情形下約兩周可抵台。 *本賣場提供之資訊僅供參考,以到貨標的為正確資訊。 印行年月:202409*若逾兩年請先於私訊洽詢存貨情況,謝謝。 台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。 書名:基於PySpark的高級數據分析 ISBN:9787519891862 出版社:中國電力 著編譯者:阿卡什.坦登 頁數:243 所在地:中國大陸 *此為代購商品 書號:1686381 可大量預訂,請先連絡。 內容簡介 本書的主要內容有:熟悉Spark的編程模型和生態系統。學習數據科學的一般方法。檢查分析大型公共數據集執行步驟的完整性。發現哪些機器學習工具對特定問題有幫助。探索可適應多種用途的代碼。作者簡介 Akash Tandon是Looppanel的聯合創始人兼首席技術官。曾在Atlan擔任高級數據工程師。目錄 前言第1章 大數據分析 1 1 使用大數據 1 2 Apache Spark和PySpark 1 2 1 組件 1 2 2 PySpark 1 2 3 生態系統 1 3 Spark 3 0 1 4 PySpark處理數據科學問題 1 5 本章小結 第2章 PySpark數據分析簡介 2 1 Spark架構 2 2 安裝PySpark 2 3 設置我們的數據 2 4 使用DataFrame API分析數據 2 5 DataFrames的快速匯總統計 2 6 DataFrame的透視和重塑 2 7 關聯DataFrame並選擇特徵 2 8 評分和模型評估 2 9 本章小結 第3章 音樂推薦和音頻編碼器的數據集 3 1 設置數據 3 2 我們對推薦系統的要求 3 3 數據準備 3 4 構建第一個模型 3 5 演算法篩查推薦 3 6 推薦質量評估 3 7 計算AUC 3 8 選擇超參數 3 9 給出推薦 3 10 本章小結 第4章 使用決策樹和決策森林進行預測 4 1 決策樹和決策森林 4 2 準備數據 4 3 第一顆決策樹 4 4 決策樹超參數 4 5 調試決策樹 4 6 重溫分類特徵 4 7 隨機森林 4 8 進行預測 4 9 本章小結 第5章 異常檢測與K-means聚類演算法 5 1 K-means聚類 5 2 識別異常網路流量 5 3 初次嘗試聚類 5 4 選擇K值 5 5 利用SparkR實現可視化 5 6 特徵歸一化 5 7 分類變數 5 8 使用熵(Entropy)標籤 5 9 聚類實戰 5 10 本章小結 第6章 通過LDA、Spark NLP了解維基百科 6 1 隱含狄利克雷分佈 6 2 獲取數據 6 3 Spark NLP 6 4 解析數據 6 5 使用Spark NLP準備數據 6 6 TF-IDF 6 7 計算TF-IDF 6 8 創建LDA模型 6 9 本章小結 第7章 基於計程車行程數據的時空序列數據分析 7 1 數據準備 7 1 1 將日期格式字元串轉換為時間戳 7 1 2 處理無效記錄 7 2 地理空間分析 7 2 1 介紹GeoJSON 7 2 2 GeoPandas 7 3 PySpark會話化 7 4 本章小結 第8章 金融風險評估 8 1 金融術語 8 2 VaR的計算方法 8 2 1 方差與協方差 8 2 2 歷史模擬法 8 2 3 蒙特卡羅模擬 8 3 我們的模型 8 4 獲取數據 8 5 準備數據 8 6 決定因子權重 8 7 抽樣 8 8 試驗運行 8 9 可視化收益分佈 8 10 本章小結 第9章 分析基因組學數據和BDG項目 9 1 從建模中解耦存儲 9 2 設置ADAM 9 3 介紹如何使用ADAM處理基因組數據 9 3 1 使用ADAM CLI進行文件格式轉換 9 3 2 使用PySpark和ADAM採集基因組學數據 9 4 預測轉錄因子結合位點 9 5 本章小結 第10章 基於深入學習和PySpark LSH的圖像相似度檢測 10 1 PyTorch 10 2 準備數據 10 3 圖像矢量表示的深度學習模型 10 3 1 圖像嵌入 10 3 2 將圖像嵌入導入PySpark 10 4 使用PySpark LSH進行圖像相似搜索 10 5 本章小結 第11章 使用MLflow管理機器學習生命周期 11 1 機器學習生命周期 11 2 MLflow 11 3 實驗跟蹤 11 4 管理和服務ML模型 11 5 創建並使用MLflow項目 11 6 本章小結 詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。 |