多模態大模型技術與開發實戰 薛棟 9787115655387 【台灣高等教育出版社】

圖書均為代購,正常情形下,訂後約兩周可抵台。
物品所在地:中國大陸
原出版社:人民郵電
大陸簡體正版圖書,訂購後正常情形下約兩周可抵台。
NT$699
商品編號: 9787115655387
供貨狀況: 尚有庫存

此商品參與的優惠活動

加入最愛
商品介紹
*書籍均為代購,我們向大陸付款發訂後即無法取消,為避免造成不必要的損失,
下訂前請慎重考慮!下訂前請慎重考慮!謝謝。

*完成訂單後正常情形下約兩周可抵台
*本賣場提供之資訊僅供參考,以到貨標的為正確資訊。
印行年月:202502*若逾兩年請先於客服中心或Line洽詢存貨情況,謝謝。
台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。
書名:多模態大模型技術與開發實戰
ISBN:9787115655387
出版社:人民郵電
著編譯者:薛棟
頁數:359
所在地:中國大陸 *此為代購商品
書號:1718938
可大量預訂,請先連絡。

內容簡介

本書循序漸進地闡述了多模態大模型的核心開發技術與應用實戰的知識。全書共10章,分別講解了多模態技術概述、多模態模型與框架、多模態數據處理、多模態表示學習、多模態嵌入表示、多模態大模型的訓練、多模態大模型的評估與驗證、基於多模態大模型的翻譯系統、基於多模態大模型的音視頻廣義零樣本學習系統、基於Diffusion Transformer的文生圖系統。全書簡潔而不失技術深度,內容豐富全面,案例翔實,以通俗易懂的文字介紹了複雜的知識體系,易於閱讀,是學習多模態大模型開發的實用教程。 本書適用於已經了解了Python語言基礎語法,想進一步學習大模型開發、自然語言處理、計算機視覺處理、機器學習、深度學習技術的讀者,還可以作為各類院校相關專業師生的學慣用書和培訓學校的教材。

作者簡介

薛棟,德國慕尼黑工業大學工學博士,華東理工大學副教授,上海「浦江人才計劃」獲得者。曾於荷蘭格羅寧根大學、德國卡爾斯魯厄理工大學從事教學和研究工作。長期從事基於大數據和人工智能的控制與優化方向研究,近年來以第一作者或通訊作者在IEEE TAC、IEEE TSP等發表高水平論文20餘篇,主持國家自然科學基金面上項目、上海市人才計劃項目、企業科研攻關項目等多項課題。

目錄

第1章 多模態技術概述
1 1 多模態技術簡介
1 1 1 什麼是多模態
1 1 2 多模態技術的發展歷史
1 1 3 多模態技術的應用場景
1 2 多模態數據類型
1 2 1 常見的多模態類型
1 2 2 圖像數據
1 2 3 文本數據
1 2 4 音頻數據
1 2 5 視頻數據
1 3 多模態技術的基本原理
1 3 1 數據融合與對齊
1 3 2 多模態表示學習
1 3 3 多模態推理
第2章 多模態模型與框架
2 1 常用的深度學習框架
2 1 1 Tensor Flow
2 1 2 PyTorch
2 1 3 Keras
2 1 4 Transformer
2 2 多模態模型技術
2 2 1 ViLBERT模型
2 2 2 VisualBERT模型
2 2 3 OpenAI CLIP模型
2 2 4 UNITER模型
2 2 5 LXMERT模型
2 2 6 SigLIP模型
2 2 7 LoRA微調技術
2 2 8 LLaVA模型
2 3 預訓練模型
2 3 1 預訓練模型簡介
2 3 2 使用預訓練模型
2 3 3 預訓練模型的微調
第3章 多模態數據處理
3 1 數據預處理
3 1 1 文本預處理
3 1 2 圖像預處理
3 1 3 音頻預處理
3 1 4 視頻預處理
3 2 數據增強
3 2 1 文本數據增強
3 2 2 圖像數據增強
3 2 3 音頻數據增強
3 2 4 視頻數據增強
3 3 特徵提取
3 3 1 特徵在大模型中的關鍵作用
3 3 2 文本特徵提取
3 3 3 圖像特徵提取
3 3 4 音頻特徵提取
3 3 5 視頻特徵提取
第4章 多模態表示學習
4 1 多模態表示學習介紹
4 1 1 多模態表示學習簡介
4 1 2 多模態表示學習的主要方法
4 2 多模態表示學習方法
4 2 1 表示融合
4 2 2 聯合學習
4 2 3 表示對齊
4 2 4 模態間關係建模
4 3 基於S3D MIL-NCE的多模態文本到視頻檢索
4 3 1 項目介紹
4 3 2 準備工作
4 3 3 視頻載入和可視化
4 3 4 載入視頻並定義文本查詢
4 3 5 預處理視頻和查詢
4 3 6 展示結果
第5章 多模態嵌入模式
5 1 多模態嵌入基礎
5 1 1 多模態嵌入介紹
5 1 2 多模態嵌入的應用
5 2 圖像嵌入
5 2 1 圖像嵌入介紹
5 2 2 圖像特徵提取
5 2 3 模態對齊
5 2 4 CLIP模型
5 3 文本嵌入
5 3 1 多模態模型中的文本嵌入
5 3 2 基於CLIP模型的文本嵌入
5 4 音頻嵌入
5 4 1 音頻特徵提取
5 4 2 常用音頻嵌入模型
5 5 多模態圖像搜索引擎
5 5 1 項目介紹
5 5 2 CLIP模型的配置參數
5 5 3 數據集處理
5 5 4 實現Bangla CLIP模型
5 5 5 基於文本的圖像搜索
5 5 6 基於Streamlit的Web客戶端
第6章 多模態大模型的訓練
6 1 模型訓練的過程
6 2 訓練策略
6 2 1 預訓練與微調
6 2 2 多任務學習
6 2 3 全量微調
6 2 4 對比學習
6 2 5 參數高效微調
6 2 6 遷移學習
6 2 7 人類反饋強化學習
6 2 8 動態學習率調整
6 2 9 SFT微調
6 3 CLIP模型訓練與微調
6 3 1 項目介紹
6 3 2 創建文本和圖像配對數據集
6 3 3 構建多模態模型
6 3 4 訓練模型
6 3 5 模型微調
6 3 6 調試運
第7章 多模態大模型的評估與驗證
7 1 模型評估
7 1 1 模型評估的必要性
7 1 2 評估指標
7 1 3 單模態性能評估
7 1 4 多模態融合性能評估
7 1 5 效率與資源使用
7 1 6 定性評估和複雜場景評估
7 1 7 語音命令識別系統
7 2 模型驗證
7 2 1 模型驗證的必要性
7 2 2 數據準備和分割
7 2 3 交叉驗證
7 2 4 嵌套交叉驗證
7 2 5 模態間一致性驗證
7 2 6 模型魯棒性驗證
7 2 7 驗證指標
7 3 多模態大模型評估基準
7 3 1 MM-Vet
7 3 2 MMEvalPro
7 3 3 MMT-Bench
7 4 CLIP模型的增強訓練與評估
7 4 1 項目介紹
7 4 2 定義數據集
7 4 3 創建模型
7 4 4 分詞器
7 4 5 損失函數
7 4 6 模型訓練
7 4 7 模型評估
7 4 8 文本重寫
第8章 基於多模態大模型的翻譯系統
8 1 背景介紹
8 2 系統分析
8 2 1 系統需求分析
8 2 2 技術架構分析
8 2 3 項目介紹
8 3 準備數據集
8 3 1 Multi30k數據集介紹
8 3 2 下載Multi30k數據集
8 3 3 下載WIT數據集中的圖像數據
8 4 數據集處理
8 4 1 PyTorch數據集類
8 4 2 數據處理和后處理
8 4 3 數據集填充
8 4 4 獲取Multi30k數據集的數據
8 4 5 獲取WIT數據集的數據
8 4 6 獲取WMT數據集的文本數據
8 5 多模態大模型
8 5 1 功能函數
8 5 2 適配器模型
8 5 3 獲取文本輸入的嵌入表
詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於客服中心或Line或本社留言板留言,我們即儘速上架。
規格說明
大陸簡體正版圖書,訂購後正常情形下約兩周可抵台。
運送方式
已加入購物車
已更新購物車
網路異常,請重新整理