作者簡介 余昌葉,資深算法工程師,哈爾濱工業大學優秀畢業生。曾就職于騰訊等多家一線互聯網企業,擁有十年行業經驗。主要研究方向為大模型、強化學習、推薦系統及圖像處理。具備紮實的數學功底與深厚的算法理論基礎,主導並完成多項核心技術項目的工程化落地。已獲六項國家發明專利,曾榮獲科研類全國航空航天模型錦標賽亞軍等專業獎項,以及騰訊卓越研發獎(團隊)、騰訊知識獎等多項企業級榮譽。
目錄 第1章 大模型原理與技術概要
1 1 圖解大模型結構
1 1 1 大語言模型(LLM)結構全景圖
1 1 2 輸入層:分詞、Token映射與向量生成
1 1 3 輸出層:Logits、概率分佈與解碼
1 1 4 多模態語言模型(MLLM、VLM)
1 2 大模型訓練全景圖
1 3 Scaling Law(性能的四大擴展規律)
第2章 SFT(監督微調)
2 1 多種微調技術圖解
2 1 1 全參數微調、部分參數微調
2 1 2 LoRA(低秩適配微調)——四兩撥千斤
2 1 3 LoRA衍生:QLoRA、AdaLoRA、PiSSA等
2 1 4 基於提示的微調:Prefix-Tuning等
2 1 5 Adapter Tuning
2 1 6 微調技術對比
2 1 7 如何選擇微調技術
2 2 SFT原理深入解析
2 2 1 SFT數據與ChatML格式化
2 2 2 Logits與Token概率計算
2 2 3 SFT的Label
2 2 4 SFT的Loss圖解
2 2 5 對數概率(LogProbs)與LogSoftmax
2 3 指令收集和處理
2 3 1 收集指令的渠道和方法
2 3 2 清洗指令的四要素
2 3 3 數據預處理及常用工具
2 4 SFT實踐指南
2 4 1 如何緩解SFT引入的幻覺?
2 4 2 Token級Batch Size的換算
2 4 3 Batch Size與學習率的Scaling Law
2 4 4 SFT的七個技巧
第3章 DPO(直接偏好優化)
3 1 DPO的核心思想
3 1 1 DPO的提出背景與意義
3 1 2 隱式的獎勵模型
3 1 3 Loss和優化目標
3 2 偏好數據集的構建
3 2 1 構建流程總覽
3 2 2 Prompt的收集
3 2 3 問答數據對的清洗
3 2 4 封裝和預處理
3 3 圖解DPO的實現與訓練
3 3 1 模型的初始化
3 3 2 DPO訓練全景圖
3 3 3 DPO核心代碼的提煉和解讀
3 4 DPO實踐經驗
3 4 1 β參數如何調節
3 4 2 DPO對模型能力的多維度影響
3 5 DPO進階
3 5 1 DPO和RLHF(PPO)的對比
3 5 2 理解DPO的梯度
第4章 免訓練的效果優化技術
4 1 提示工程
4 1 1 Zero-Shot、One-Shot、Few-Shot
4 1 2 Prompt設計的原則
4 2 CoT(思維鏈)
4 2 1 CoT原理圖解
4 2 2 ToT、GoT、XoT等衍生方法
4 2 3 CoT的應用技巧
4 2 4 CoT在多模態領域的應用
4 3 生成控制和解碼策略
4 3 1 解碼的原理與分類
4 3 2 貪婪搜索
4 3 3 Beam Search(波束搜索):圖解、衍生
4 3 4 Top-K、Top-P等採樣方法圖解
4 3 5 其他解碼策略
4 3 6 多種生成控制參數
4 4 RAG(檢索增強生成)
4 4 1 RAG技術全景圖
4 4 2 RAG相關框架
4 5 功能與工具調用(Function Calling)
4 5 1 功能調用全景圖
4 5 2 功能調用的分類
第5章 強化學習基礎
5 1 強化學習核心
5 1 1 強化學習:定義與區分
5 1 2 強化學習的基礎架構、核心概念
5 1 3 馬爾可夫決策過程(MDP)
5 1 4 探索與利用、ε-貪婪策略
5 1 5 On-policy和Off-policy
5 1 6 在線/離線強化學習(Online/Offline RL)
5 1 7 強化學習分類圖
5 2 價值函數、回報預估
5 2 1 獎勵、回報、折扣因子(R、G、γ)
5 2 2 反向計算回報
5 2 3 四種價值函數:Qπ、Vπ、V*、Q*
5 2 4 獎勵、回報、價值的區別
5 2 5 貝爾曼方程——強化學習的基石
5 2 6 Q和V的轉換關係、轉換圖
5 2 7 蒙特卡洛方法(MC)
5 3 時序差分(TD)
5 3 1 時序差分方法
5 3 2 TD-Target和TD-Error
5 3 3 TD(λ)、多步TD
5 3 4 蒙特卡洛、TD、DP、窮舉搜索的區別
5 4 基於價值的算法
5 4 1 Q-learning算法
5 4 2 DQN
5 4 3 DQN的Loss、訓練過程
5 4 4 DDQN、Dueling DQN等衍生算法
5 5 策略梯度算法
5 5 1 策略梯度(Policy Gradient)
5 5 2 策略梯度定理
5 5 3 REINFORCE和Actor-Critic
5 6 多智能體強化學習(MARL)
5 6 1 MARL的原理與架構
5 6 2 MARL的建模
5 6 3 MARL的典型算法
5 7 模仿學習(IL)
5 7 1 模仿學習的定義、分類
5 7 2 行為克隆(BC)
5 7 3 逆向強化學習(IRL)
5 7 4 生成對抗模仿學習(GAIL)
5 8 強化學習高級拓展
5 8 1 基於環境模型(Model-Based)的方法
5 8 2 分層強化學習(HRL)
5 8 3 分佈價值強化學習(Distributional RL)
第6章 策略優化算法
6 1 Actor-Critic(演員-評委)架構
6 1 1 從策略梯度到Actor-Critic
6 1 2 Actor-Critic架構圖解
6 2 優勢函數與A2C
6 2 1 優勢函數(Advantage)
6 2 2 A2C、A3C、SAC算法
6 2 3 GAE(廣義優勢估計)算法
6 2 4 γ和λ的調節作用
6 3 PPO及其相關算法
6 3 1 PPO算法的演進
6
詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於客服中心或Line或本社留言板留言,我們即儘速上架。