內容簡介
本書主要講解分散式機器學習演算法和開源框架,讀者既可以從宏觀的設計上了解分散式機器學習的概念和理論,也可以深入核心技術的細節設計中,對分散式機器學習形成深刻而直觀的認識,做到學以致用。 本書共分為5篇,第1篇是分散式基礎,首先介紹了分散式機器學習的概念、基礎設施,以及機器學習并行化技術、框架和軟體系統,然後對集合通信和參數伺服器PS-Lite進行了介紹。第2篇是數據并行,以PyTorch和Horovod為主對數據并行進行分析,讀者可以了解在具體工程領域內實現數據并行有哪些挑戰和解決方案。第3篇是流水線并行,講解了除模型劃分之外,還通過引入額外的流水線來提高效率,以GPipe/PyTorch/PipeDream為例進行分析。第4篇是模型并行,首先對NVIDIAMegatron進行分析,講解如何進行層內模型并行,然後講解PyTorch如何支持模型并行,最後介紹分散式優化器。第5篇是TensorFlow分散式,前面幾篇以PyTorch為綱,結合其他框架/庫來穿插完成, 本篇帶領大家進入TensorFlow分散式領域。作者簡介
柳浩,網名「羅西的思考」,浙江大學碩士。曾就職于多家世界500強企業,主導過多個大型項目,現就職于某新能源車企。技術棧廣博,有豐富的各種大型軟體開發和系統架構經驗,對機器學習框架、微服務框架、大數據引擎、NoSQL、消息隊列、分散式追蹤系統、可觀測系統、可靠性設計、移動開發方案和源碼有著深刻的理解和認識。目錄
第1篇 分散式基礎