內容簡介
本書以通俗易懂、大量圖解的方式剖析了DeepSeek的底層技術。
全書分為3章 和附錄,第1章 詳細分析推理大模型的範式轉變,即從”訓練時計算”到”測試時計算”;第2章 解讀DeepSeek-R1的架構——混合專家(MoE),第3章 展示DeepSeek-R1詳細的訓練過程及核心技術,涵蓋基於GRPO的強化學習等;附錄分享DeepSeek開源周活動。
本書適合大模型從業人員和對大模型底層技術感興趣的讀者。書中通過豐富的圖解將複雜的技術解釋得簡單、清晰、通透,是學習大模型技術難得一見的參考書。
作者簡介
Jay Alammar(傑伊 阿拉馬爾)
Cohere總監兼工程研究員,知名大模型技術博客Language Models & Co作者,DeepLearning AI和Udacity熱門機器學習和自然語言處理課程作者。
Maarten Grootendorst(馬爾滕 格魯滕多斯特)
IKNL(荷蘭綜合癌症中心)高級臨床數據科學家,知名大模型技術博客博主,BERTopic等開源大模型軟件包作者(下載量超過百萬次),DeepLearning AI和Udacity課程作者。
Jay & Maarten撰寫的圖解系列文章 廣受讚譽,累計吸引了數百萬專業讀者的目光。其中,Jay 的”The Illustrated Transformer”“The Illustrated DeepSeek-R1”、Maarten的”A Visual Guide to Reasoning LLMs”在全網熱度極高。
Jay & Maarten的第一部作品《圖解大模型:生成式AI原理與實戰》(Hands-On Large Language Models)是業內廣受讚譽的經典。《圖解DeepSeek技術》是Jay & Maarten的第二部作品,人民郵電出版社圖靈全球獨家發佈,是解讀DeepSeek原理與訓練的寶貴讀物。
李博傑
智能體初創公司PINE AI聯合創始人、首席科學家。曾任華為計算機網絡與協議實驗室副首席專家,入選華為首批”天才少年”項目。2019年獲中國科學技術大學與微軟亞洲研究院聯合培養博士學位,曾獲ACM中國優秀博士學位論文獎和微軟學者獎學金。在SIGCOMM、SOSP、NSDI、USENIX ATC和PLDI等頂級會議上發表多篇論文。
孟佳穎
中國科學技術大學博士。現任北京中關村實驗室助理研究員,主要從事網絡協議棧的漏洞挖掘與風險分析技術的研究工作。
目錄
譯者序
前言
第 1 章 測試時計算
1 1 什麼是推理大模型 1
1 2 什麼是訓練時計算 3
1 3 什麼是測試時計算 7
1 3 1 縮放定律 10
1 3 2 測試時計算的分類 12
1 4 基於驗證器的搜索 16
1 4 1 多數投票法 17
1 4 2 Best-of-N 採樣 17
1 4 3 基於過程獎勵模型的束搜索 20
1 4 4 蒙特卡洛樹搜索 21
1 5 調整提議分佈 24
1 5 1 提示工程 25
1 5 2 STaR 方法 26
1 6 小結 28
1 7 延伸閱讀 29
第 2 章 架構設計 31
2 1 稠密層 31
2 2 MoE 層 34
2 2 1 專家機制 35
2 2 2 路由機制 40
2 2 3 DeepSeekMoE 44
2 3 小結 50
第 3 章 DeepSeek-R1 訓練方案 51
3 1 回顧:大模型的訓練原理 51
3 2 DeepSeek-R1-Zero 的推理能力 55
3 2 1 示例:推理問題的自動驗證 57
3 2 2 DeepSeek-R1-Zero 的完整訓練過程 62
3 3 DeepSeek-V3 的效率優化策略 64
3 3 1 多頭潛在注意力機制 64
3 3 2 混合精度訓練 66
3 3 3 多詞元預測 70
3 4 構建 DeepSeek-R1 72
3 5 通過 DeepSeek-R1 蒸餾推理能力 77
3 6 未成功的嘗試 78
3 7 基於 GRPO 的強化學習 78
3 7 1 獎勵值與優勢值 79
3 7 2 KL 散度懲罰項 83
3 7 3 GRPO 目標函數 85
3 7 4 GRPO 算法 86
3 7 5 GRPO 參考實現 87
3 8 小結 87
附錄 DeepSeek 開源周 89
詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於客服中心或Line或本社留言板留言,我們即儘速上架。