*完成訂單後正常情形下約兩周可抵台。 *本賣場提供之資訊僅供參考,以到貨標的為正確資訊。 印行年月:202404*若逾兩年請先於私訊洽詢存貨情況,謝謝。 台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。 書名:多模態大模型-新一代人工智能技術範式 ISBN:9787121475474 出版社:電子工業 著編譯者:劉陽 林倞 叢書名:通用智能與大模型叢書 頁數:294 所在地:中國大陸 *此為代購商品 書號:1630097 可大量預訂,請先連絡。 內容簡介 本書以深入淺出的方式介紹近年來人工智慧領域最熱門的技術——多模態大模型的技術方法、開源平台和應用場景,並詳細闡述因果推理、世界模型及多智能體與具身智能等前沿技術領域,有助於讀者全面了解多模態大模型的特點及發展方向,對新一代人工智慧技術範式和通用人工智慧的發展起到重要推動作用。 全書共5章,第1章深入探討最具代表性的大模型結構,第2章深度剖析多模態大模型的核心技術,第3章介紹多個具有代表性的多模態大模型,第4章深入分析視覺問答、AIGC和具身智能這3個典型應用,第5章探討實現通用人工智慧的可行思路。 本書不僅適合高校相關專業高年級本科生和研究生作為教材使用,更是各類IT從業者的必備參考之作。作者簡介 劉陽 中山大學計算機學院副研究員,中山大學人機物智能融合實驗室(HCP-Lab)骨幹成員。主要研究方向為多模態認知理解、因果推理和具身智能。截至2023年12月,在IEEET-PAMI、T-IP、ICCV、ACM MM等期刊和會議上發表論文30餘篇,2篇論文入選ESI高被引和熱點論文。提出的視覺-語言因果推理開源框架CausalVLR受到國內外廣泛關注。主持多項國家級、省部級科研項目,作為課題骨幹參与國家人工智慧重大專項。獲得2023年中國軟體大會」達闥杯」機器人大模型與具身智能挑戰賽優勝獎,廣東省第三屆計算機科學青年學術秀一等獎。目錄 1 大模型全家桶1 1 多模態大模型基本概念 1 1 1 多模態 1 1 2 大模型和基礎模型 1 1 3 多模態大模型 1 2 BERT技術詳解 1 2 1 模型結構 1 2 2 預訓練任務 1 2 3 下游應用場景 1 3 ViT技術詳解 1 3 1 模型結構 1 3 2 預訓練任務 1 4 GPT系列 1 4 1 GPT-1結構詳解 1 4 2 GPT-2結構詳解 1 4 3 GPT-3結構詳解 1 5 ChatGPT簡介 1 5 1 InstructGPT 1 5 2 ChatGPT 1 5 3 多模態GPT-4V 1 6 中英雙語對話機器人ChatGLM 1 6 1 ChatGLM-6B模型 1 6 2 千億基座模型GLM-130B的結構 1 7 百川大模型 1 7 1 預訓練 1 7 2 對齊 1 8 本章小結 2 多模態大模型核心技術 2 1 預訓練基礎模型 2 1 1 基本結構 2 1 2 學習機制 2 2 預訓練任務概述 2 2 1 自然語言處理領域的預訓練任務 2 2 2 計算機視覺領域的預訓練任務 2 3 基於自然語言處理的預訓練關鍵技術 2 3 1 單詞表徵方法 2 3 2 模型結構設計方法 2 3 3 掩碼設計方法 2 3 4 提升方法 2 3 5 指令對齊方法 2 4 基於計算機視覺的預訓練關鍵技術 2 4 1 特定代理任務的學習 2 4 2 幀序列學習 2 4 3 生成式學習 2 4 4 重建式學習 2 4 5 記憶池式學習 2 4 6 共享式學習 2 4 7 聚類式學習 2 5 提示學習 2 5 1 提示的定義 2 5 2 提示模板工程 2 5 3 提示答案工程 2 5 4 多提示學習方法 2 6 上下文學習 2 6 1 上下文學習的定義 2 6 2 模型預熱 2 6 3 演示設計 2 6 4 評分函數 2 7 微調 2 7 1 適配器微調 2 7 2 任務導向微調 2 8 思維鏈 2 8 1 思維鏈的技術細節 2 8 2 基於自洽性的思維鏈 2 8 3 思維樹 2 8 4 思維圖 2 9 RLHF 2 9 1 RLHF技術分解 2 9 2 RLHF開源工具集 2 9 3 RLHF的未來挑戰 2 10 RLAIF 2 10 1 LLM的偏好標籤化 2 10 2 關鍵技術路線 2 10 3 評測 2 11 本章小結 3 多模態基礎模型 3 1 CLIP 3 1 1 創建足夠大的數據集 3 1 2 選擇有效的預訓練方法 3 1 3 選擇和擴展模型 3 1 4 預訓練 3 2 BLIP 3 2 1 模型結構 3 2 2 預訓練目標函數 3 2 3 標註過濾 3 3 BLIP- 3 3 1 模型結構 3 3 2 使用凍結的圖像編碼器進行視覺與語言表示學習 3 3 3 使用凍結的LLM進行從視覺到語言的生成學習 3 3 4 模型預訓練 3 4 LLaMA 3 4 1 預訓練數據 3 4 2 網路結構 3 4 3 優化器 3 4 4 高效實現 3 5 LLaMA-Adapter 3 5 1 LLaMA-Adapter的技術細節 3 5 2 LLaMA-Adapter V 3 6 VideoChat 3 6 1 VideoChat-Text 3 6 2 VideoChat-Embed 3 7 SAM 3 7 1 SAM任務 3 7 2 SAM的視覺模型結構 3 7 3 SAM的數據引擎 3 7 4 SAM的數據集 3 8 PaLM-E 3 8 1 模型結構 3 8 2 不同感測器模態的輸入與場景表示 3 8 3 訓練策略 3 9 本章小結 4 多模態大模型的應用 4 1 視覺問答 4 1 1 視覺問答的類型 4 1 2 圖像問答 4 1 3 視頻問答 4 1 4 未來研究方向 4 2 AIGC 4 2 1 GAN和擴散模型 4 2 2 文本生成 4 2 3 圖像生成 4 2 4 視頻生成 4 2 5 三維數據生成 4 2 6 HCP-Diffusion統一代碼框架 4 2 7 挑戰與展望 4 3 具身智能 4 3 1 具身智能的概念 4 3 2 具身智能模擬器 4 3 3 視覺探索 4 3 4 視覺導航 4 3 5 具身問答 4 3 6 具身交互 4 3 7 存在的挑戰 4 4 本章小結 5 多模態大模型邁向AGI 5 1 研究挑戰 5 1 1 缺乏評估準則 5 1 2 模型設計準則模糊 5 1 3 多模態對齊不佳 5 1 4 領域專業化不足 5 1 5 幻覺問題 5 1 6 魯棒性威脅 5 1 7 可信性問題 5 1 8 可解釋性和推理能力問題 5 2 因果推理 5 2 1 因果推理的基本概念 5 2 2 因果的類型 5 2 3 LLM的因果推理能力 5 2 4 LLM和因果發現的關係 5 2 5 多模態因果開源框架CausalVLR 5 3 世界模型 5 3 1 世界模型的概念 5 3 2 聯合嵌入預測結構 5 3 3 Dynalang:利用語言預測未來 5 3 4 互動式現實世界模擬器 5 3 5 Sora:模擬世界的視頻生成模型 5 4 超級智能體AGI Agent 5 4 1 Agent的定義 5 4 2 Agent的核心組件 5 4 3 典型的AGI Agent模型 5 4 4 AGI Agent的未來展望 5 5 基於Agent的具身智能 5 5 1 具身決策評測集 詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。 |