內容簡介
本書詳細闡述了與分散式機器學習相關的基本解決方案,主要包括拆分輸入數據、參數伺服器和All-Reduce、構建數據并行訓練和服務管道、瓶頸和解決方案、拆分模型、管道輸入和層拆分、實現模型并行訓練和服務工作流程、實現更高的吞吐量和更低的延遲、數據并行和模型并行的混合、聯合學習和邊緣設備、彈性模型訓練和服務、進一步加速的高級技術等內容。此外,本書還提供了相應的示例、代碼,以幫助讀者進一步理解相關方案的實現過程。 本書適合作為高等院校計算機及相關專業的教材和教學參考書,也可作為相關開發人員的自學用書和參考手冊。作者簡介
冠華·王(Guanhua Wang)是加州大學伯克利分校RISELab的計算機科學博士(導師為Ion Stoica教授)。他的研究主要集中在機器學習系統領域,包括快速集體通信、高效并行模型訓練和實時模型服務等,得到了學術界和工業界的廣泛關注。他曾受邀在頂級大學(麻省理工學院、斯坦福大學、卡內基梅隆大學和普林斯頓大學)和大型科技公司(Facebook/Meta和微軟)進行演講。他在香港科技大學獲得碩士學位,在中國東南大學獲得學士學位。他在無線網路方面還有一些很好的研究。他喜歡踢足球,並且曾在加州灣區跑過多次半程馬拉松。目錄
第1篇 數據并行