內容簡介
本書圍繞大模型輕量化這一主題,系統地闡述大模型輕量化的基本理論與實現方法,旨在提升模型的部署效率和計算性能。全書分為3部分,共10章。第1部分(第1~5章),介紹大模型的背景與面臨的問題,以及Transformer和MoE架構的基本原理;重點講解模型壓縮、訓練加速和推理優化等核心技術,包括量化、蒸餾和剪枝等,並通過實際案例驗證其效果。第2部分(第6、7章),重點介紹端側學習與計算引擎優化策略,尤其是動態Batch和異構執行的工程實現。第3部分(第8~10章),針對高性能運算元庫與手工運算元開發,分別以cuDNN、NEON、CUDA等為代表,揭示運算元優化的細節,最後,以國產開源模型DeepSeek-V3為例,展現從訓練到推理的綜合優化方案。 本書提供全面實用的輕量化方法論,結合豐富代碼示例與實踐案例,適合從事大模型開發與優化的工程師,也為研究人員提供深入探討的素材與視角,助力解決大模型訓練與推理中的實際問題。作者簡介
梁志遠 畢業於北京航空航天大學。長期從事人工智能、大語言模型的開發,專註于深度學習、自然語言處理、數據分析與智能決策等領域。主持或參与過多項科研項目,涵蓋模型訓練優化、知識蒸餾、自動推理與多模態學習等方面。致力於推動人工智能技術在工業應用、智能交互與數據驅動中的實踐與發展。目錄
第1部分 大模型概述與核心優化技術