為什麼要寫《機器學習實踐應用》這本書

李博Garvin發表於2017-07-03

這裡寫圖片描述
預售地址:
https://item.jd.com/12114501.html

歷經了10個月,《機器學習實踐應用》這本書終於面世了。首先呢,因為我的工作比較忙,只能抽一些週末或者是下班以後的時間進行寫作,另外書的釋出流程是一個漫長的過程。所以當這本書出版的時候,我感到熟悉又陌生,熟悉是因為書中的內容經過了多次校對已經印到我的腦子中了,陌生是距離剛開始寫這本書已經過去接近一年,對於當時的狀態有一些陌生。我因為記憶力不好(智商偏低),所以從小就養成了經常總結事情的毛病,今天剛好趕上快週末,並且《機器學習實踐應用》已經上架預售,所以就寫了這篇筆記對這本書釋出的流程進行總結。

首先就是為什麼要寫這本書?其實從小都沒想過我會寫一個這麼多字的東西,碩士畢業的時候寫3萬字論文都快把我逼瘋了,更何況是20萬字的一本書。而且我從小語文就不太好,高考語文也是最低的一科。但是因為記性不好,所以我一直特別喜歡記筆記,特別是後來在CSDN上寫部落格開始記錄和分享我的一些學習成果,我覺得能有更多的人跟我一起討論一件事是非常之有趣的。加上最近兩年入職阿里,寫了很多機器學習相關的文章,得到了一些出版行業的朋友的關注。所以索性,把之前的學習筆記和已經寫好的機器學習相關的文章做一個整合,於是就形成了《機器學習實踐應用》。

另外,也有一些比較巨集觀的原因,比如我覺得市面上很多機器學習相關的書都偏理論,但是真正搞機器學習的大部分人群是一些演算法的使用者,這部分同學可能不需要對每一種演算法在數學層面的推導有很深的見解,大家需要一些偏業務的引導。基於這個原因,我想有一本書可以幫助大家彌補演算法和業務之間的gap。但是因為能力有限,不知道是幫忙縮小了這個gap,還是擴大了,哈哈。

最後就是我覺得出一本書是一件很酷的事情,紙質的書會讓我自己看演算法的時候變的很舒服,而且現在不是流行一句話“阿貓阿狗都能出書了”,我也想當次阿貓阿狗。寫書可以強迫你去更多的思考,去看更豐富的資料,無意間也可以提高自己的姿勢。總結起來就是一句話,“生活在這個繁雜浮躁的社會,能花10個月的精力專注的做一件事情是一個很酷的行為”(認真臉)。

對於後期的計劃,用稿費來一次說走就走的旅行,幾個候選集:印度、去西班牙看皇馬的比賽、去一次非洲,我還沒想清楚。上班之前給自己定了一個計劃,每年用業餘時間去做一件酷的事情,上一件是出版一本書,已經實現了,下一件事情正在有條不紊的進行。最後的最後,忘了推薦《機器學習實踐應用》這本書,那就不推薦了吧(上面那幾個地方沒稿費我也去的起,哈哈)。

內容簡介:
  機器學習是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、演算法複雜度等多門學科,專門研究計算機怎樣模擬或實現人類的學習行為。機器學習是人工智慧的核心,是使計算機具有智慧的根本途徑。
  本書通過對機器學習的背景知識、演算法流程、相關工具、實踐案例以及知識圖譜等內容的講解,全面介紹了機器學習的理論基礎和實踐應用。書中涉及機器學習領域的多個典型演算法,並詳細給出了機器學習的演算法流程。
  本書適合任何有一定資料功底和程式設計基礎的讀者閱讀。通過閱讀本書,讀者不僅可以瞭解機器學習的理論基礎,也可以參照一些典型的應用案例擴充自己的專業技能。同時,本書也適合計算機相關專業的學生以及對人工智慧和機器學習感興趣的讀者閱讀。

目錄:
第1部分 背景知識
第1章 機器學習概述 3
1.1 背景 3
1.2 發展現狀 6
1.2.1 資料現狀 6
1.2.2 機器學習演算法現狀 8
1.3 機器學習基本概念 12
1.3.1 機器學習流程 12
1.3.2 資料來源結構 14
1.3.3 演算法分類 16
1.3.4 過擬合問題 18
1.3.5 結果評估 20
1.4 本章小結 22
第2部分 演算法流程
第2章 場景解析 25
2.1 資料探查 25
2.2 場景抽象 27
2.3 演算法選擇 29
2.4 本章小結 31
第3章 資料預處理 32
3.1 取樣 32
3.1.1 隨機取樣 32
3.1.2 系統取樣 34
3.1.3 分層取樣 35
3.2 歸一化 36
3.3 去除噪聲 39
3.4 資料過濾 42
3.5 本章小結 43
第4章 特徵工程 44
4.1 特徵抽象 44
4.2 特徵重要性評估 49
4.3 特徵衍生 53
4.4 特徵降維 57
4.4.1 特徵降維的基本概念 57
4.4.2 主成分分析 59
4.5 本章小結 62
第5章 機器學習演算法——常規演算法 63
5.1 分類演算法 63
5.1.1 K近鄰 63
5.1.2 樸素貝葉斯 68
5.1.3 邏輯迴歸 74
5.1.4 支援向量機 81
5.1.5 隨機森林 87
5.2 聚類演算法 94
5.2.1 K-means 97
5.2.2 DBSCAN 103
5.3 迴歸演算法 109
5.4 文字分析演算法 112
5.4.1 分詞演算法——Hmm 112
5.4.2 TF-IDF 118
5.4.3 LDA 122
5.5 推薦類演算法 127
5.6 關係圖演算法 133
5.6.1 標籤傳播 134
5.6.2 Dijkstra最短路徑 138
5.7 本章小結 145
第6章 機器學習演算法——深度學習 146
6.1 深度學習概述 146
6.1.1 深度學習的發展 147
6.1.2 深度學習演算法與傳統
演算法的比較 148
6.2 深度學習的常見結構 152
6.2.1 深度神經網路 152
6.2.2 卷積神經網路 153
6.2.3 迴圈神經網路 156
6.3 本章小結 157
第3部分 工具介紹
第7章 常見機器學習工具介紹 161
7.1 概述 161
7.2 單機版機器學習工具 163
7.2.1 SPSS 163
7.2.2 R語言 167
7.2.3 工具對比 172
7.3 開源分散式機器學習工具 172
7.3.1 Spark MLib 172
7.3.2 TensorFlow 179
7.4 企業級雲機器學習工具 190
7.4.1 亞馬遜AWS ML 191
7.4.2 阿里雲機器學習PAI 196
7.5 本章小結 205
第4部分 實戰應用
第8章 業務解決方案 209
8.1 心臟病預測 209
8.1.1 場景解析 209
8.1.2 實驗搭建 211
8.1.3 小結 216
8.2 商品推薦系統 216
8.2.1 場景解析 217
8.2.2 實驗搭建 218
8.2.3 小結 220
8.3 金融風控案例 220
8.3.1 場景解析 221
8.3.2 實驗搭建 222
8.3.3 小結 225
8.4 新聞文字分析 225
8.4.1 場景解析 225
8.4.2 實驗搭建 226
8.4.3 小結 230
8.5 農業貸款發放預測 230
8.5.1 場景解析 230
8.5.2 實驗搭建 232
8.5.3 小結 236
8.6 霧霾天氣成因分析 236
8.6.1 場景解析 237
8.6.2 實驗搭建 238
8.6.3 小結 243
8.7 圖片識別 243
8.7.1 場景解析 243
8.7.2 實驗搭建 245
8.7.3 小結 253
8.8 本章小結 253
第5部分 知識圖譜
第9章 知識圖譜 257
9.1 未來資料採集 257
9.2 知識圖譜的概述 259
9.3 知識圖譜開源
工具 261
9.4 本章小結 264
參考文獻 265

與作者交流,請關注公眾號:
這裡寫圖片描述

相關文章