*完成訂單後正常情形下約兩周可抵台。 *本賣場提供之資訊僅供參考,以到貨標的為正確資訊。 印行年月:202410*若逾兩年請先於私訊洽詢存貨情況,謝謝。 台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。 書名:大模型動力引擎-PyTorch性能與顯存優化手冊 ISBN:9787302673477 出版社:清華大學 著編譯者:張愛玲 楊占略 頁數:217 所在地:中國大陸 *此為代購商品 書號:1686391 可大量預訂,請先連絡。 內容簡介 本書致力於探索如何在大規模深度學習模型訓練中,最大限度地提高性能和優化顯存使用。本書面向深度學習從業者,尤其是希望深入了解並提升模型訓練效率的工程師與研究人員。隨著深度學習模型和數據規模的迅速增長,如何高效利用硬體資源,減少訓練時間,成為當前AI系統工程的關鍵挑戰。本書從硬體和軟體的基礎知識入手,逐步引導讀者理解和掌握PyTorch的優化技巧。內容涵蓋從單機到分散式訓練,從顯存管理到性能分析的多種優化策略,力求通過豐富的代碼實例和深入的原理講解,使讀者能夠在實踐中靈活應用這些方法。作者簡介 張愛玲 本科畢業於清華大學電子工程系,后在美國伊利諾伊大學香檳分校獲得計算機科學碩士學位,是AI系統工程領域的資深技術專家。作為深度學習框架PyTorch核心團隊成員,參与了多個關鍵組件的研發與優化工作。同時,她作為技術負責人主導了PyTorch/XLA和Taichi編譯器等多個具有廣泛影響力的開源項目。目前在工業界專註于大規模語言模型訓練的基礎設施開發與性能優化工作。目錄 第1章 歡迎來到這場大模型競賽1 1 模型規模帶來的挑戰 1 2 數據規模帶來的挑戰 1 3 模型規模與數據增長的應對方法 第2章 深度學習必備的硬體知識 2 1 CPU與內存 2 1 1 內存 2 1 2 CPU 2 2 硬碟 2 3 GPU 2 3 1 CPU的局限性 2 3 2 GPU的硬體結構 2 3 3 GPU編程模型及其硬體對應 2 3 4 GPU的關鍵性能指標 2 3 5 顯存與內存間的數據傳輸 2 4 分散式系統 2 4 1 單機多卡的通信 2 4 2 多機多卡的通信 2 4 3 分散式系統的數據存儲 第3章 深度學習必備的PyTorch知識 3 1 PyTorch的張量數據結構 3 1 1 張量的基本屬性及創建 3 1 2 訪問張量的數據 3 1 3 張量的存儲方式 3 1 4 張量的視圖 3 2 PyTorch中的運算元 3 2 1 PyTorch的運算元庫 3 2 2 PyTorch運算元的內存分配 3 2 3 運算元的調用過程 3 3 PyTorch的動態圖機制 3 4 PyTorch的自動微分系統 3 4 1 什麼是自動微分 3 4 2 自動微分的實現 3 4 3 Autograd擴展自定義運算元 3 5 PyTorch的非同步執行機制 第4章 定位性能瓶頸的工具和方法 4 1 配置性能分析所需的軟硬體環境 4 1 1 減少無關程序的干擾 4 1 2 提升PyTorch程序的可重複性 4 1 3 控制GPU頻率 4 1 4 控制CPU的性能狀態和工作頻率 4 2 精確測量程序運行時間 4 2 1 計量CPU程序的運行時間 4 2 2 程序預熱和多次運行取平均 4 2 3 計量GPU程序的運行時間 4 2 4 精確計量GPU的運行時間 4 3 PyTorch性能分析器 4 3 1 性能分析 4 3 2 顯存分析 4 3 3 可視化性能圖譜 4 3 4 如何定位性能瓶頸 4 4 GPU 專業分析工具 4 4 1 Nsight Systems 4 4 2 Nsight Compute 4 5 CPU 性能分析工具 4 5 1 Py-Spy 4 5 2 strace 4 6 本章小結 第5章 數據載入和預處理專題 5 1 數據接入的準備階段 5 2 數據集的獲取和預處理 5 2 1 獲取原始數據 5 2 2 原始數據的清洗 5 2 3 數據的離線預處理 5 2 4 數據的存儲 5 2 5 PyTorch與第三方庫的交互 5 3 數據集的載入和使用 5 3 1 PyTorch的Dataset封裝 5 3 2 PyTorch的DataLoader封裝 5 4 數據載入性能分析 5 4 1 充分利用CPU的多核資源 5 4 2 優化CPU上的計算負載 5 4 3 減少不必要的CPU線程 5 4 4 提升磁碟效率 5 5 本章小結 第6章 單卡性能優化專題 6 1 提高數據任務的并行度 6 1 1 增加數據預處理的并行度 6 1 2 使用非同步介面提交數據傳輸任務 6 1 3 數據傳輸與GPU計算任務并行 6 2 提高GPU計算任務的效率 6 2 1 增大BatchSize 6 2 2 使用融合運算元 6 3 減少CPU和GPU間的同步 6 4 降低程序中的額外開銷 6 4 1 避免張量的創建開銷 6 4 2 關閉不必要的梯度計算 6 5 有代價的性能優化 6 5 1 使用低精度數據進行設備間拷貝 6 5 2 使用性能特化的優化器實現 6 6 本章小結 第7章 單卡顯存優化專題 7 1 PyTorch的顯存管理機制 7 2 顯存的分析方法 7 2 1 使用PyTorch API查詢當前顯存狀態 7 2 2 使用PyTorch的顯存分析器 7 3 訓練過程中的顯存佔用 7 4 通用顯存復用方法 7 4 1 使用原位操作運算元 7 4 2 使用共享存儲的操作 7 5 有代價的顯存優化技巧 7 5 1 跨批次梯度累加 7 5 2 即時重算前向張量 7 5 3 將GPU顯存下放至CPU內存 7 5 4 降低優化器的顯存佔用 7 6 優化Python代碼以減少顯存佔用 7 6 1 Python垃圾回收機制 7 6 2 避免出現循環依賴 7 6 3 謹慎使用全局作用域 7 7 本章小結 第8章 分散式訓練專題 8 1 分散式策略概述 8 2 集合通信原語 8 3 應對數據增長的并行策略 8 3 1 數據并行策略 8 3 2 手動實現數據并行演算法 8 3 3 PyTorch的DDP封裝 8 3 4 數據并行的性價比 8 3 5 其他數據維度的切分 8 4 應對模型增長的并行策略 8 4 1 靜態顯存切分 8 4 2 動態顯存切分 8 5 本章小結 第9章 高級優化方法專題 9 1 自動混合精度訓練 9 1 1 浮點數的表示方法 9 1 2 使用低精度數據類型的優缺點 9 1 3 PyTorch自動混合精度訓練 9 2 自定義高性能運算元 9 2 1 自定義運算元的封裝流程 9 2 2 自定義運算元的後端代碼實現 9 2 3 自定義運算元導入Python 9 2 4 自定義運算元導入PyTorch 9 2 5 在Python中使用自定義運算元 9 3 基於計算圖的性能優化 9 3 1 torch compile的使用方法 9 3 2 計算圖的提取 9 3 3 圖的優化和後端代碼生成 9 4 本章小結 第10章 GP 詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。 |