作者簡介
Kristen Kehrer從2010年以來,一直為電子商務公司、醫療保健公司和公共事業部門構建和維護具有創新意義的、用於統計資料的ML模型方案。Kristen是Data Moves Me公司的創始人,2018年榮膺領英資料科學與分析領域頂尖影響力人物,擁有9 5萬名資料科學領域的粉絲。Kristen獲得了伍斯特理工學院的應用統計學專業碩士學位和數學專業學士學位。
Caleb Kaiser目前擔任Comet的全棧工程師,也是Cortex Labs的創始成員。Caleb還曾在Scribe Media的作者平臺團隊工作,並獲得了芝加哥藝術學院的藝術寫作專業學士學位。
目錄
第1章 現代機器學習簡介 1
1 1 資料科學與商業智慧漸行漸遠 2
1 2 從CRISP-DM過渡到最新的多元件ML系統 3
1 3 LLM提升了ML的能力和複雜度 5
1 4 你能從本書中學到哪些知識 6
第2章 一種端到端的方法 9
2 1 YouTube搜索智慧體的組件 11
2 2 生產中使用的ML系統的核心原則 13
2 2 1 可觀察性 14
2 2 2 可再現性 15
2 2 3 互通性 15
2 2 4 可擴展性 16
2 2 5 可改進性 17
2 2 6 關於工具的注意事項 18
第3章 以資料為中心 19
3 1 基礎模型的出現 19
3 2 現成組件的角色 20
3 3 資料驅動的方法 21
3 4 有關資料倫理的注意事項 22
3 5 構建資料集 23
3 5 1 使用向量資料庫 25
3 5 2 資料版本控制和管理 38
3 5 3 開始使用資料版本控制工具 41
3 6 適度瞭解資料工程知識 45
第4章 LLM 47
4 1 選擇LLM 47
4 1 1 我需要執行哪種類型的推理 49
4 1 2 這項任務是通用的還是專用的 50
4 1 3 數據的隱私級別有多高 50
4 1 4 該模型需要多高的成本 51
4 2 LLM實驗管理 52
4 3 LLM推理 56
4 3 1 提示工程的基本原理 56
4 3 2 上下文學習 58
4 3 3 中間計算 64
4 3 4 RAG 67
4 3 5 智慧體技術 71
4 4 用Comet ML優化LLM推理 77
4 5 微調LLM 84
4 5 1 微調LLM的時機 84
4 5 2 量化、QLoRA和參數高效微調 85
4 6 本章 小結 90
第5章 合成一個完整的應用 91
5 1 用Gradio得到應用的雛形 93
5 2 使用Plotnine創建圖形 94
5 2 1 添加選擇框 102
5 2 2 添加徽標 103
5 2 3 添加選項卡 103
5 2 4 添加標題和副標題 104
5 2 5 更改按鈕的顏色 104
5 2 6 添加下載按鈕 105
5 2 7 將組件合在一起 105
5 3 將模型部署為API 107
5 3 1 用FastAPI實現API 109
5 3 2 實現Uvicorn 111
5 4 監控LLM 111
5 4 1 用Docker部署服務 113
5 4 2 部署LLM 115
5 5 小結 119
第6章 完成ML生命週期 121
6 1 部署一個簡單的隨機森林模型 121
6 2 模型監控簡介 125
6 3 用Evidently AI監控模型 131
6 4 構建模型監控系統 134
6 5 有關監控的總結 141
第7章 最佳實踐 143
7 1
第一步:理解問題 143
7 2
第二步:選擇和訓練模型 144
7 3
第三步:部署和維護 145
7 4
第四步:協作與溝通 148
7 5 LLM的發展趨勢 149
7 6 進一步的研究 150
前言/序言
歡迎你踏上現代ML(機器學習)之旅,此次旅程將充滿活力!過去,資料科學多應用于商業智慧工作,而如今,處理資料的方式已經大相徑庭,多使用前沿的多元件系統。
希望本書能讓你愛不釋手。本書沒有羅列方法,也不是一本全面介紹ML的書籍。本書旨在講述現代ML相關的挑戰,將重點介紹資料版本控制、實驗跟蹤、生產後模型監控和部署,並提供代碼和示例,以便你能立即上手。
第1章 講述基礎知識,揭示管理機器學習的工作流程如何從CRISP-DM等傳統的線性框架演變為LLM(大語言模型)驅動的應用。強調需要利用一個統一的框架來構建基於LLM的應用。
第2章 將帶你見證一種端到端的ML方法,探索生命週期、生產級ML系統的原理和LLM應用的核心。
第3章 闡述”以資料為中心”的觀點,強調資料在現代ML中的作用。該章 需要你動手練習,將創建embedding(嵌入)並用向量資料庫進行文本相似度搜索。將道德準則和資料版本控制策略結合起來,以確保你採取負責任的一體化方法。
第4章 將引導你選擇正確的LLM、利用LangChain並微調LLM性能。
在第5章 中,將元件組裝在一起,從原型過渡到應用。該章 還演示如何構建儀錶盤和API(應用程式設計發展介面),使你的模型可為最終使用者提供結果。
第6章 將完成ML的生命週期,對模型進行監控、重訓練管道,並規劃未來的部署策略,分析如何與利益相關者溝通。
最後,在第7章 中,回顧了在整個過程中總結的最佳實踐,探討了LLM的新趨勢,並提供了資源供你進一步學習。
本書不僅是一本指南——它是一次冒險,是一次穿越現代ML風景區的邀約,也是一次為你配備導航工具,讓你汲取知識的機會。所以,朋友們,系好鞋帶,讓我們踏上旅途吧!
下載示例代碼
讀者可掃描封底二維碼,下載配套的示例代碼。
詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於客服中心或Line或本社留言板留言,我們即儘速上架。