內容簡介
本書系統地介紹多模態大模型的理論基礎、關鍵技術與實際應用。全書分為兩部分12章,第1部分(第1~5章)圍繞基礎理論與技術解析展開論述,包括基本概念、Transformer架構、跨模態對齊、模態融合,以及多模態大模型的預訓練方法、模型微調與優化等,為理解多模態大模型的構建邏輯奠定基礎。第2部分(第6~12章)聚集於多模態大模型的高級應用與場景實現,包括主流視覺語言模型(如CLIP、BLIP-2等)的實現、跨模態推理與生成的技術應用、多模態大模型的推理與優化方法、模型的安全與可信性問題,並通過多模態檢索與推薦系統、多模態語義理解系統和多模態問答系統的端到端開發實踐,展示了多模態大模型的實際落地路徑。 本書兼具理論深度與實際應用價值,適合大模型和AI研發人員、人工智能領域的從業者以及高校師生閱讀使用,也可作為培訓機構和高校人工智能及相關專業的教材或參考書。作者簡介
韓曉晨 長期從事高性能計算與大模型訓練算力優化研究。近十年來,專註于智能計算架構優化及大規模數據處理,深耕于控制算法、機器視覺等領域。近年來,重點研究大模型訓練加速、算力調度與異構計算優化,致力於提升大模型計算效率與資源利用率,推動大規模人工智能模型的部署與應用。目錄
第1部分 基礎理論與技術解析