如何從零起步學習AI

v_JULY_v發表於2017-01-15

資料科學家的成長之路兼學習路線:如何學習ML/DL


前言

    我從2012年一直以一個業餘研究者的身份開始學習機器學習,參考了諸多資料寫了篇SVM模型的學習筆記。在一直想繼續寫但每每錯不開時間的反覆糾結中,於14年年底終於騰出時間,又開始寫最大熵、adaboost、聚類、貝葉斯、LDA等模型的學習筆記。當然,很多很多的知識點和模型,還是瞭解的太淺,所以能有機會就繼續學習。

    2015年年初正式創業,我們堅信好的內容依託於線上這個形式,一定可以讓千千萬萬的人從中受益,踐行我這幾年來始終不變的唯一理想:創造價值 助千萬人 領導行業 推動文明。所幸雖然15年全年一年磕磕絆絆,但最終還是所有問題都一一解決了。當然了,原本就沒有達不成的目標、沒有解決不了的問題、沒有溝通不好的事情。然創業之累唯親身經歷創業之人才能真切體會,15年全年,基本沒啥時間更新部落格,除了終於把拖延了近3年之久的新書《程式設計之法:面試和演算法心得》給出版了。我愛這本書,不管咋樣 我付出了心血 對一些人起了幫助、對一些人有用。

    2016年,創業第二年。如在那篇CNN筆記中所寫的那樣:“我雖不參與講任何課程,然由於公司在不斷開機器學習、深度學習等相關的線上課程,耳濡目染中,總會順帶著學習學習。”於是以一個學員之一的角度開始重寫技術部落格,誰叫我就是能“用最最小白的方式 把一些初看複雜的東西抽絲剝繭的通俗寫出來”呢?寫完CNN筆記之後,我們的深度學習課程也即將開始第二期,DL課程一期一期開,我當時想,除了上課聽課之外,是不是可以和大家一起做點什麼事情?這個時候,市場同事提議,我們可以做一些深度學習方面的實驗,於是就有了利用DL學梵高作畫、利用DL自動玩flappy bird等一系列有趣的深度學習實驗,最終帶動近1000人跟我們助教團隊一起玩,不亦樂乎!

    邁入到今年2017年,剛好創業兩年整。公司的學員從0到2萬,講師團隊從1人到現在的總計21人,課程種類從2類到現在的11類,算是取得了一些成績。在這兩年過程中,我們始終堅持品質第一、內容第一,並時刻敢為人先,包括去年11月份國內首家推出GPU雲實驗平臺,後來市場同事再次提議,何不在今年整個全年GPU呢,於是最近,我們推出了2017年會員:¥2999包攬全年全套資料課程和全年GPU雲服務。


    回顧過去幾年,從在部落格裡開始整理面試題,然後研究學習資料結構、演算法,到後來開始學習機器學習、深度學習,及至15年創業,算是一直在與資料這個東西打交道,雖然自始至終始終是一個從門外窺探門內的業餘研究者的身份,但到底是與資料科學淵源很深。

    藉助公司七月線上越發的強大,依託它強大的講師資源,和課程資源,我特意在新的一年給想學資料科學、機器學習、深度學習的朋友,整理一份《資料科學家的成長之路兼學習路線》,祝所有朋友新年再上新巔峰。



資料科學家的成長之路兼學習路線

    上面扯了一堆,現在直入主題。所謂萬丈高樓平地起,搞資料科學、機器學習或深度學習,一開始至少得學會跟計算機打交道吧,怎麼跟計算機打交道呢?程式設計。

第一步:學習程式設計

    實話說,計算機體系很龐大,除了語言、資料機構、演算法之外,計算機體系結構、作業系統、網路、資料庫等等領域龐大。但不管怎樣,學習如何編寫程式碼、如何程式設計是必需的。學完語言、資料結構、演算法等基礎知識後,如何更進一步提高程式設計能力呢?上LeetCode刷題成為很多人的不二之選。
推薦教程:《面試求職演算法班》、《LeetCode直播刷題班》

第二步:紮實數學

    數學是搞資料科學的必備基礎,數學不紮實,機器學習裡很多原理、推導、公式便無法理解透徹,比如單單一個SVM就涉及到求導、凸優化等數學知識。所以如果數學忘了,很有必要複習並重新紮實數學基礎。
涵蓋內容:微積分、數理統計與概率論、矩陣、凸優化
推薦書籍:數理統計學簡史、矩陣分析與應用by張賢達、凸優化(Convex Optimization)
推薦課程:《機器學習中的數學班

第三步:掌握適合資料科學的Python

    python在當今的資料分析很熱,廣泛應用於金融、電商等領域的大資料分析,也非常適合資料工作者利用它處理資料,所以Python在資料領域應用的越來越廣泛。
推薦教程:《Python基礎入門班》、《Python資料分析班》、《Python爬蟲專案班》

第四步:開始學習機器學習

    機器學習技術在很多領域應用廣泛,包括在資料探勘、搜尋、推薦、廣告、自然語言處理等等中。所以學好機器學習,是搞更多應用領域的前提條件。此外,學習機器學習,不單單只是學習一個個模型、演算法就足夠,因為實際的機器學習工作中,分析問題、處理資料、處理特徵佔絕大部分工作。所以不要以為看到一個課程涵蓋許許多多的模型/演算法就以為撿到了寶,看一個ML課程有沒有工業實戰,最快速的判斷標準之一就是看它講不講以及是否能講好特徵工程、模型調優等工程點。
推薦書籍:PRML
推薦課程:《機器學習班

第五步:再進一步之學習DL

    得益於計算機越發強大的計算能力,神經網路的加強版深度學習(權且容許我這麼不專業的叫法)越發火熱,從AlphaGo、無人駕駛再到最近的AlphaGo 2.0橫掃中日韓頂級棋手,AI可謂出盡了風頭,在這個人工智慧與大資料的時代,不學點AI,都不好意思出門跟人打招呼說我是搞計算機技術的了。
推薦課程:國內首家提供GPU雲平臺實戰的《深度學習課程


第六步:做實驗及上kaggle實戰

    紙上得來終覺淺、絕知此事要躬行。理論學習再多最終還是要實戰。為降低門檻起見,你可以從做一個一個有趣的深度學習實驗開始,比如學梵高作畫、自動玩flappy bird等等。然後,在kaggle上多刷刷一些資料競賽專案
推薦課程:除了上面本身便有實戰的機器學習、深度學習課程之外,還推薦《kaggle案例實戰班》、《機器學習專案班》、《深度學習專案班》

第七步:實習或工作

    如果你是想做資料探勘、計算機視覺、自然語言處理,可以繼續學相關的課程:https://www.julyedu.com/route。此外,很多經典最新論文值得一讀。如果足夠了,那就正式出山到實際江湖上闖一闖吧:找份工作,幹一把!
推薦公司:有資源、有資料的偏大型一點的公司



參考文獻



後記

    關於我所在公司七月線上,有三句話可以介紹之:1 國內最早、最專業、同時也是規模最大的資料教育機構,2 唯一一家擁有資料科學完整課程體系,3 全球首家提供全年GPU雲服務。
    另,關於學習資料科學難不難,一句話可概括之:只要你想學、你想做,沒有你學不好、做不成的事情。
    七月線上July、二零一七年一月十五日。

相關文章