內容簡介
本書循序漸進地闡述了多模態大模型的核心開發技術與應用實戰的知識。全書共10章,分別講解了多模態技術概述、多模態模型與框架、多模態數據處理、多模態表示學習、多模態嵌入表示、多模態大模型的訓練、多模態大模型的評估與驗證、基於多模態大模型的翻譯系統、基於多模態大模型的音視頻廣義零樣本學習系統、基於Diffusion Transformer的文生圖系統。全書簡潔而不失技術深度,內容豐富全面,案例翔實,以通俗易懂的文字介紹了複雜的知識體系,易於閱讀,是學習多模態大模型開發的實用教程。 本書適用於已經了解了Python語言基礎語法,想進一步學習大模型開發、自然語言處理、計算機視覺處理、機器學習、深度學習技術的讀者,還可以作為各類院校相關專業師生的學慣用書和培訓學校的教材。作者簡介
薛棟,德國慕尼黑工業大學工學博士,華東理工大學副教授,上海「浦江人才計劃」獲得者。曾於荷蘭格羅寧根大學、德國卡爾斯魯厄理工大學從事教學和研究工作。長期從事基於大數據和人工智能的控制與優化方向研究,近年來以第一作者或通訊作者在IEEE TAC、IEEE TSP等發表高水平論文20餘篇,主持國家自然科學基金面上項目、上海市人才計劃項目、企業科研攻關項目等多項課題。目錄
第1章 多模態技術概述