內容簡介
本書結合大模型的理論基礎,系統地闡述了DeepSeek大模型的技術架構、開發實踐與行業應用。全書分為3部分11章,第1~4章深入介紹大模型的理論基礎與核心技術,包括大模型的核心概念、Transformer與MoE機制,以及DeepSeek架構的關鍵設計思想、優化策略與開發基礎等。第5~7章聚焦于實際應用開發,詳細講解如何在DeepSeek平台上構建智能開發工具,包括編程智能助手的技術實現、智能代碼生成、調試、多任務跨領域應用以及Prompt設計等。第8~10章深入探討了大模型在行業中的定製化應用,通過多個案例展示了大模型如何解決零售、製造等行業中的具體業務問題,幫助讀者掌握從需求分析到模型部署的全流程。第11章詳細介紹了DeepSeek-R1的關鍵技術。 本書理論兼備實踐,涵蓋從DeepSeek-V3到R1的完整技術路徑,適合大模型和AI研發人員、高校師生以及企業工程師和行業從業者,也可作為培訓機構和高校相關課程的教材或參考書。作者簡介
韓曉晨 長期從事高性能計算與大模型訓練算力優化研究。近十年來,專註于智能計算架構優化及大規模數據處理,深耕于控制算法、機器視覺等領域。近年來,重點研究大模型訓練加速、算力調度與異構計算優化,致力於提升大模型計算效率與資源利用率,推動大規模人工智能模型的部署與應用。目錄
第1部分 理論基礎與技術實現