*完成訂單後正常情形下約兩周可抵台。 *本賣場提供之資訊僅供參考,以到貨標的為正確資訊。 印行年月:202410*若逾兩年請先於私訊洽詢存貨情況,謝謝。 台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。 書名:AI圖像生成核心技術與實戰 ISBN:9787115650399 出版社:人民郵電 著編譯者:南柯 頁數:158 所在地:中國大陸 *此為代購商品 書號:1681012 可大量預訂,請先連絡。 內容簡介 本書以AI圖像生成為主線,串聯講解了Stable Diffusion、DALL·E、Imagen、Midjourney等模型的技術方案,並帶著讀者訓練一個自己專屬的AI圖像生成模型。 本書共6章。第1章先介紹身邊的AIGC產品,再講解AI圖像生成相關的深度學習基礎知識,包括神經網路和多模態模型的基礎知識。第2章講解AI圖像生成技術,從VAE到GAN到基於流的模型再到擴散模型的演化,並詳細介紹擴散模型的演算法原理和組成模塊。第3章講解Stable Diffusion模型的核心技術。第4章講解DALL·E 2、Imagen、DeepFloyd和Stable Diffusion圖像變體模型的核心技術。第5章講解Midjourney、SDXL和DALL·E 3的核心技術。第6章是項目實戰,使用LoRA技術對Stable Diffusion模型進行微調,得到特定風格的AI圖像生成模型。作者簡介 南柯,某頭部互聯網公司AIGC團隊技術負責人,高級演算法專家,極客時間「AI繪畫核心技術與實戰」專欄作者,擁有十多年計算機視覺領域從業經驗,帶領團隊推動多模態生成,尤其是AI圖像生成與編輯、多模態大語言模型、數字人等熱點方向的技術建設。在ICCV和AAAI年會等AI領域頂級會議上發表過多篇論文,擁有100多項專利。目錄 第1章 AIGC基礎1 1 身邊的AIGC 1 1 1 圖像生成和編輯類工具 1 1 2 文字提效類工具 1 1 3 音頻創作類工具 1 2 神經網路 1 2 1 人工神經元 1 2 2 損失函數 1 2 3 人工神經網路 1 2 4 損失函數 1 2 5 優化器 1 2 6 卷積神經網路 1 3 多模態模型 1 3 1 認識模態 1 3 2 典型多模態模型 1 3 3 參數量 1 3 4 計算量 1 4 小結 第 2章 圖像生成模型:GAN和擴散模型 2 1 圖像生成模型的技術演化 2 1 1 第一代圖像生成模型:VAE 2 1 2 第二代圖像生成模型:GAN 2 1 3 第三代圖像生成模型:基於流的模型 2 1 4 第四代圖像生成模型:擴散模型 2 1 5 第五代圖像生成模型:自回歸模型 2 2 「舊畫師」GAN 2 2 1 生成對抗原理 2 2 2 生成能力的進化 2 2 3 GAN時代的「圖生圖」 2 2 4 GAN的技術應用 2 3 「新畫師」擴散模型 2 3 1 加噪過程:從原始圖像到雜訊圖 2 3 2 去噪過程:從雜訊圖到清晰圖像 2 3 3 訓練過程和推理過程 2 3 4 擴散模型與GAN 2 4 擴散模型的U-Net模型 2 4 1 巧妙的U形結構 2 4 2 損失函數設計 2 4 3 應用於擴散模型 2 5 擴散模型的採樣器 2 5 1 採樣器背後的原理 2 5 2 如何選擇採樣器 2 6 訓練一個擴散模型 2 6 1 初探擴散模型:輕鬆入門 2 6 2 深入擴散模型:定製藝術 2 7 小結 第3章 Stable Diffusion的核心技術 3 1 圖像的「壓縮器」VAE 3 1 1 從AE到VAE 3 1 2 圖像插值生成 3 1 3 訓練「餐廳評論機器人」 3 1 4 VAE和擴散模型 3 2 讓模型「聽話」的CLIP 3 2 1 連接兩種模態 3 2 2 跨模態檢索 3 2 3 其他CLIP模型 3 2 4 CLIP和擴散模型 3 3 交叉注意力機制 3 3 1 序列、詞符和詞嵌入 3 3 2 自注意力與交叉注意力 3 3 3 多頭注意力 3 4 Stable Diffusion是如何工作的 3 4 1 Stable Diffusion的演化之路 3 4 2 潛在擴散模型 3 4 3 文本描述引導原理 3 4 4 U-Net模型實現細節 3 4 5 反向描述詞與CLIP Skip 3 4 6 「圖生圖」實現原理 3 5 小結 第4章 DALL·E 2、Imagen、DeepFloyd和Stable Diffusion圖像變體的核心技術 4 1 里程碑DALL 4 1 1 DALL·E 2的基本功能概覽 4 1 2 DALL·E 2背後的原理 4 1 3 unCLIP:圖像變體的魔法 4 1 4 DALL·E 2的演算法局限性 4 2 Imagen和DeepFloyd 4 2 1 Imagen vs DALL 4 2 2 Imagen的演算法原理 4 2 3 文本編碼器:T5 vs CLIP 4 2 4 動態閾值策略 4 2 5 開源模型DeepFloyd 4 2 6 升級版Imagen 4 3 Stable Diffusion圖像變體 4 3 1 「圖生圖」vs圖像變體 4 3 2 使用Stable Diffusion圖像變體 4 3 3 探秘Stable Diffusion圖像變體模型背後的演算法原理 4 4 小結 第5章 Midjourney、SDXL和DALL·E 3的核心技術 5 1 推測Midjourney的技術方案 5 1 1 Midjourney的基本用法 5 1 2 各版本演化之路 5 1 3 技術方案推測 5 2 SDXL的技術方案與使用 5 2 1 驚艷的繪圖能力 5 2 2 使用級聯模型提升效果 5 2 3 更新基礎模塊 5 2 4 使用SDXL模型 5 3 更「聽話」的DALL 5 3 1 體驗DALL·E 3的功能 5 3 2 數據集重新描述 5 3 3 生成數據有效性 5 3 4 數據混合策略 5 3 5 基礎模塊升級 5 3 6 擴散模型解碼器 5 3 7 演算法局限性 5 4 小結 第6章 訓練自己的Stable Diffusion 6 1 低成本訓練*LoRA 6 1 1 LoRA的基本原理 6 1 2 LoRA的代碼實現 6 1 3 用於圖像生成任務 6 2 Stable Diffusion WebUI體驗圖像生成 6 2 1 本地AI圖像生成模型 6 2 2 開源社區中的模型 6 2 3 體驗AI圖像生成功能 6 2 4 將多個模型進行融合 6 2 5 靈活的LoRA模型 6 3 Stable Diffusion代碼實戰 6 3 1 訓練數據準備 6 3 2 基礎模型的選擇與使用 6 3 3 一次完整的訓練過程 6 4 小結 詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。 |