內容簡介
本書內容以技術知識與業務實戰相結合,同時全書穿插多個實戰項目,從而幫助讀者更好地理解數據分析技術在業務上的應用。前半部分為技術章節,主要圍繞 Python 語言的編程方法展開,其中包括數據錄入、數據可視化、數值計算、辦公自動化等內容 ;後半部分為業務章節,主要圍繞不同業務場景的分析方法展開,其中包括廣告投放、電商運營、用戶畫像、商品畫像、商業分析等內容。
本書主要面向電商數據分析師和電商運營人員,也適合對技術感興趣的產品經理。
作者簡介
周景陽
貪心科技聯合創始人
曾就職于百度、國美等大型網際網路公司及傳統行業10餘年工作經驗,擅長數據分析、數據挖掘、大數據、軟體研發、測試等多方向實戰技術。
葉鵬飛
電子商務領域書籍銷量TOP 10作者,代表作《亞馬遜跨境電商數據化運營指南》個人IP「旭鵬」,在知乎、喜馬拉雅、今日頭條等內容平台擁有數據分析、電子商務關注者超過5萬人先後于亞馬遜、bilibili、騰訊擔任數據與運營相關工作亞馬遜中國官方跨境電商廣告業務講師、騰訊課堂「數據分析師」專業課程業務模塊主講人。
目錄
文件處理
1 1 基本環境介紹 /1
1 2 Pandas 文件的讀取 /1
1 3 初識 DataFrame 數據類型 /3
1 4 DataFrame 數據類型的訪問 /5
1 4 1 如何使用 head() 方法查看數據 /5
1 4 2 如何查看數據類型 /6
1 4 3 如何同時訪問多列數據 /7
1 4 4 如何進行數據類型的篩選 /7
1 5 區域訪問的方法 /8
1 6 DataFrame 數據類型的新增、刪除 /11
1 6 1 DataFrame 數據類型的新增操作方法 /11
1 6 2 DataFrame 數據類型的刪除操作方法 /13
1 7 探索性分析項目實戰 /15
企業數據分析與挖掘項目標準化流程
2 1 基本流程介紹 /22
2 2 如何進行目標定義 /23
2 2 1 在線產品 /23
2 2 2 線下服務業 /23
2 2 3 內部分析目標 /24
2 3 數據的來源與獲取 /25
2 4 數據抽樣的常用方法 /25
2 5 數據探索的目標與任務 /26
I
2 6 數據預處理 /28
2 7 數據建模與評價 /29
使用 Python 進行科學運算
3 1 Pandas 計算利器 Series /30
3 1 1 DataFrame 與 Series 的關係 /30
3 1 2 聲明一個 Series 類型 /31
3 1 3 Series 判斷缺失值 /32
3 1 4 Series 的運算 /33
3 2 一個必不可少的運算庫 NumPy /34
3 3 類型推斷 /35
3 4 NumPy 的矢量化操作 /36
3 5 NumPy 的切片 /37
3 6 花式索引 Fancy Indexing /39
3 7 降維運算 /41
3 8 堆疊運算 /42
3 9 廣播運算 /44
Matplotlib 數據可視化
4 1 銷售額走勢的折線圖 /48
4 1 1 環境安裝及引入 /48
4 1 2 Excel 中整數日期的處理 /49
4 1 3 繪製簡單折線圖 /50
4 1 4 解決 x 軸刻度重疊問題 /51
4 1 5 調整畫布大小問題 /52
4 1 6 多項數據對比繪製折線圖 /52
4 2 長尾分佈的柱狀圖 /55
4 2 1 簡單柱狀圖 /55
4 2 2 邊框顏色與隱藏問題 /56
4 2 3 刻度顯示問題 /57
II
4 3 躺著的柱狀圖就是條形圖 /58
4 4 說明佔比的餅圖 /60
4 4 1 基本餅圖 /60
4 4 2 餅圖的數據計算 /60
4 4 3 豐富餅圖屬性 /61
4 5 觀察分佈的散點圖 /63
4 5 1 普通散點圖 /63
4 5 2 由散點圖到氣泡圖的演變 /63
4 5 3 自開發 RGB 顏色生成器 /64
全面了解 MySQL
5 1 掌握資料庫的結構 /66
5 1 1 實例與庫 /66
5 1 2 表與欄位的創建 /70
5 2 SQL 的數據操作 /72
5 2 1 數據寫入 /72
5 2 2 數據更新 /73
5 2 3 數據的物理刪除與邏輯刪除 /74
5 3 使用 Python 操作 MySQL /75
5 3 1 表結構的創建 /75
5 3 2 外部數據導入 /76
使用 Python 進行 SQL 的查詢與計算
6 1 有條件限制的查詢語句 /78
6 1 1 基本查詢語句 /78
6 1 2 單一條件限制的查詢語句 /79
6 1 3 模糊的條件限制 /81
6 1 4 多條件限制的查詢語句 /82
6 1 5 關於空值的判斷 /83
6 1 6 返回部分結果的控制 /84
III
6 2 多個表查詢結果展示在一起的聯合查詢 /85
6 3 統計結果中的分組方法與篩選技巧 /86
6 3 1 掌握結果分組 /86
6 3 2 過濾篩選分組后的結果 /87
6 3 3 排序中的大小順序 /89
6 4 多表之間的子查詢 /90
6 4 1 兩表之間的子查詢 /90
6 4 2 三表之間的子查詢 /91
6 5 多表之間的關聯查詢 /92
6 5 1 先給數據起個別名 /92
6 5 2 兩表之間的左關聯 /93
6 5 3 兩表之間的右關聯 /94
6 5 4 兩表之間的全關聯 /95
6 6 使用 Python 進行 SQL 數據查詢 /95
6 6 1 一般的查詢方法 /95
6 6 2 使用 Pandas 的查詢方法 /96
基於用戶行為的用戶價值分析
7 1 項目數據介紹 /98
7 1 1 項目介紹及脫敏 /98
7 1 2 數據介紹 /98
7 2 項目開始前的數據預處理 /100
7 2 1 數據獲取 /100
7 2 2 數據預處理 /101
7 3 指標分析與價值分析 /102
7 3 1 流量指標分析 /102
7 3 2 轉化指標分析 /104
7 3 3 基於 RFM 模型的用戶價值分析 /104
IV
數據分析的具體介紹
8 1 數據與信息的關係 /107
8 2 數據能做什麼——以微信私域流量數字化經營為例 /108
8 3
數據分析基本概念及數學基礎
9 1 數據分析的基本思路 /119
9 2 描述性分析 /120
9 2 1 數值分析 /120
9 2 2 分佈分析 /121
9 2 3 可視化分析 /124
9 3 診斷性分析 /129
9 3 1 關聯分析 /129
9 3 2 波動分析(以周權重指數為例) /130
9 4 預測性分析 /131
9 4 1 線性回歸 /131
9 4 2 非線性回歸 /133
9 5 模擬模擬 /136
9 5 1 模擬模擬的理論應用 /136
9 5 2 模擬模擬的業務應用 /137
V
數據分析思維在業務中的應用——以 B 站廣告增長投放為例
10 1 B 站基本信息及廣告形式 /144
10 1 1 B 站基本信息 /144
10 1 2 B 站的廣告形式 /145
10 2 影響 CPC 廣告投放效果的要素 /147
10 2 1 廣告投放營銷漏斗轉化模型 /147
10 2 2 CPC 廣告展示量(曝光量)涉及要素 /148
10 2 3 CPC 廣告點擊量涉及要素 /153
10 2 4 CPC 廣告訪問量涉及要素 /157
10 2 5 CPC 廣告成交量(轉化量)涉及要素 /157
10 3 B 站內 CPC 廣告業務場景與優化 /159
10 4 B 站內 CPC 廣告業務優化思路與數據分析 /160
10 4 1 針對廣告投放 ROI 偏低問題的數據匯總 /160
10 4 2 針對廣告投放 ROI 偏低問題的優化思路 /161
10 4 3 針對廣告曝光點擊率偏低問題的業務背景 /164
10 4 4 針對廣告曝光點擊率偏低問題的優化思路 /165
10 5 B 站內 CPC 廣告優化在複雜業務環境下考慮的要素 /168
數據分析在電商平台訂單分析中的應用——以 B 站會員購電商平台為例
11 1 B 站會員購平台業務背景介紹 /172
11 2 B 站會員購平台相關數據介紹 /173
11 3 訂單數據的數據分析基本思路 /175
11 4 B 站會員購時間相關訂單數據的分析思路及業務應用 /178
11 4 1 訂單時間分佈分析 /178
11 4 2 訂單價格分佈分析 /179
11 4 3 訂單時間分佈與價格分佈的交叉分析 /180
11 4 4 不同時間相關訂單數據的分析匯總 /180
VI
11 5 B 站會員購商品相關訂單數據的分析思路及業務應用 /181
11 5 1 商品客單價分佈分析 /181
11 5 2 商品銷量分佈分析 /182
11 5 3 商品銷量波動趨勢分析 /183
11 5 4 商品地區客單價分析 /185
11 6 B 站會員購多日訂單數據的匯總 /186
11 7 B 站會員購訂單數據針對地區品牌滲透度基本判別的分析 /186
數據分析在商業分析中的應用——以商品多渠道管理為例
12 1 什麼是商業分析 /190
12 2 商業分析和數據分析的區別是什麼 /190
12 3 多渠道商業分析項目背景介紹 /193
12 4 相關數據介紹 /196
12 5 多渠道商業分析的數據處理 /198
12 5 1 多渠道商業分析的數據背景及分析價值 /198
12 5 2 多渠道商業分析的操作步驟 /200
12 5 3 多渠道商業分析的數據分析思路及操作 /200
12 6 不同渠道對銷量影響程度的判斷 /209
12 7 多渠道商業分析在銷售管理上的應用 /211
數據分析在市場調研的應用——商品畫像分析
13 1 什麼是商品畫像體系 /212
13 2 商品畫像體系的數據來源 /212
13 2 1 平台數據來源 /212
13 2 2 第三方數據來源 /220
13 3 商品畫像數據的抓取方法 /223
13 3 1 人工採集 /223
13 3 2 第三方爬蟲工具採集 /223
13 3 3 自有編程爬蟲腳本採集 /224
VII
13 4 商品畫像體系的應用 /225
13 4 1 數據維度說明 /225
13 4 2 數據清洗及有效數據篩選 /228
13 4 3 商品曝光價格分佈分析 /229
13 4 4 商品曝光價格趨勢分析 /230
13 4 5 商品評分及數量分佈分析 /231
13 4 6 商品評分趨勢分析 /235
13 4 7 商品排名分佈趨勢分析 /236
13 4 8 商品標題詞頻分析 /237
13 4 9 商品評價詞頻分析 /244
前言/序言
獻給陪伴我的朋友、家人,以及我所熱愛的事業
隨著網際網路行業的發展,被稱為新時代能源的數據顯得愈發重要,無論是千人千面的淘寶,還是個性化推薦的抖音,都驗證了同一個事實:依託以演算法為代表的前沿技術, 數據可以挖掘出巨大的商業價值與潛力。與此同時,如今網際網路行業已經進入了「產業網際網路」的下半場,各個領域都在進行數字化的轉型和升級,而數據分析能力的強弱則決定了產業網際網路數字化水平的高低。因此,希望通過本書的內容,給相關行業的從業者提供一些數據分析的思維和執行方法,從而幫助更多的人在行業轉型的大背景下獲得先機。
我從2017 年進入國內的跨境電子商務行業發展,如今在幫助服飾行業的中小企業做數字化轉型,這五年間經歷了跨境電商的熱潮,也看到了「產業數字化」帶來的機會, 但更多時候我面對的則是,眾多企業經營者在處理茫茫數據中的不知