引言
在大資料技術飛速發展的今天,誰才是我們大資料科研與工業界中最有威望的科學家呢?下面我們來進行梳理,共羅列了25位當今世界,無論是在學術與工業界都產生巨大影響的資料科學家(Data Scientists)。他(她)們推動了整個領域的發展,毫無疑問,無論是在學術界還是還工業界,他(她)們都是一座座山頭式的人物。他(她)們是我們這些從事大資料產業發展的榜樣。他(她)們便是所謂的大師級人物。
數以萬計的資料從業者通過他(她)們的論文、部落格、視訊、講義等進行學習與進步,並找到相應的應用場景解決方案。這些大師為人們解開了統計機器學習、神經網路以及深度學習的神祕。
下面從三個類別對這25位大師進行簡介,雖然這個分類可能並不那麼恰當,但是可以加深讀者對他(她)們的瞭解。
- 科研學術界大師(Research Oriented Data Scientists)
這些科學家全身心致力於在資料中發明新的演算法或者模型,他(她)們更傾向於學術與科研界的創新與創造。 - 工業界應用大師(Data Scientists Turned Entrepreneurs)
這些科學家致力於將技術轉變為生產力,應用資料技術去創造產品和服務。 - 實踐中的大師(Data Scientists in Action)
顯然,並不是說上面兩類大師不是實踐派。只是為了強調這類大師將資料科學引入到實踐當中所作的貢獻。
為了便於大家去全面深入得了解和學習這些資料大拿,本文所列舉的每個大拿都有其連結(LinkedIn/Twitter).
Research Oriented Data Scientists:
Geoffrey Hinton
只要是在機器學習屆混的或者懂點機器學習的人們,抑或懂點神經網路的人們,相信都知道“Back Propagation“反向傳播的鼎鼎大名。Hinton便是將BP演算法應用到神經網路與深度學習中人員之一,並且是主導者(co-inventor). Hinton 提出了“Dark Knowledge”黑暗知識概念(“Dark Knowledge”這本書籍已經出版,亞馬遜上面有賣,288RMB,可見其nb性),該概念是受小概率比率事件中的“大部分知識”對於訓練與測試中的代價函式是沒有影響的。Hinton在人工智慧領域中無人不知無人不曉是因為其在人工神經網路(Artificial Neural Networks)中所作出的貢獻。
早在上世紀60年代,Hinton在高中時期,就有一個朋友告訴他,人腦的工作原理就想全息圖一樣。建立一個3D全息圖,需要大量的記錄入射光被物體多次反射的結果,然後將這些資訊儲存在一個龐大的資料庫中。大腦儲存資訊的方式與全息圖類似,大腦並非將記憶儲存在一個特定的地方,而是砸整個神經網路裡傳播。從此,Hinton對神經網路深深得著迷。他在劍橋大學學習心理學期間,發現科學家們並沒有真正理解人類大腦,人類大腦有數十億個神經細胞,它們之間通過神經突觸互相影響,形成極其複雜的相互聯絡,然而科學家們並不能解釋這些具體的影響和聯絡。神經到底是如何進行學習以及計算的,對於Hinton,這些正是他所關心的問題。Hinton在愛丁堡大學獲得了人工智慧的博士學位,現為多倫多大學的特聘教授。在2012年獲得了加拿大2012年基廉獎(Killam Prizes,Killam Prizes是有“加拿大諾貝爾獎”之稱的國家最高科學獎)。在2013年,他加入Google,並帶領一個AI團隊,目前正進行著Google Brain專案。
他和他的團隊強力將“神經網路”從垂死邊緣一步步帶入到當今的研究與應用的熱潮,變成了炙手可熱的的學術界課題,將“深度學習”從邊緣課題變成了Google等網際網路巨頭仰賴的核心技術。目前神經網路與深度學習已在自然語言處理、語音處理以及計算機視覺等領域中得到了空前廣泛與成功地應用。越來越多的科學家從事神經網路與深度學習的研究工作。換句話說,深度學習是目前的主流,我們不再是極端分子了。
Yann Lecun
Lecun在多倫多大學隨Hinton讀博士後,即他是Hinton的學生。他是另一個神經網路與深度學習大拿。他在皮埃爾瑪麗居里大學(又稱巴黎第六大學, Université Pierre et Marie Curie (Paris VI))獲得了電腦科學博士學位,期間提出後向傳播演算法。他如今在Facebook帶領團隊進行人工智慧工作,即他是Facebook人工智慧實驗室的負責人。他在紐約大學任職了12年,是紐約大學的終身教授,是紐約大學資料科學中心的負責人。為了表彰他在深度學習領域裡所作出的貢獻,IEEE計算機學會頒給他著名的“神經網路先鋒獎”,在2014年北京計算智慧大會上授予。
在加盟Facebook之前,Lecun已在貝爾實驗室工作超過20年,期間他開發了一套能夠識別手寫數字的系統,叫作LeNet,用到了卷積神經網路(Cnvolutional Neural Networks, CNN),已開源。他研發了很多關於深度學習的專案,並且擁有14項相關的美國專利。他甚至開發了一種開源的物件導向程式語言Lush,比Matlab功能還要強大,並且也是一位Lisp高手。他在機器學習、深度學習、計算機視覺、計算神經科學領域進行了深度研究。
Yoshua Bengio
Bengio是另外一位機器學習、深度學習的大拿。他在麥吉爾大學獲得博士學位。他是ApSTAT技術的發起人與研發大牛。他也是蒙特利爾大學(Université de Montréal)的終身教授,任教超過22年,是機器學習實驗室(MILA)的負責人,是CIFAR專案的負責人之一,負責神經計算和自適應感知器等方面。又是加拿大統計學習演算法學會的主席,並且是NSERC-Ubisoft主席以及其它。在蒙特利爾大學任教之前,他是AT&T & MIT的一名機器學習研究員。他的主要貢獻在於深度學習與人工智慧等領域。
Jurgen Schmidhuber
他致力於構建一個自完善的人工智慧機器。他曾任職於南加州大學,現任於卡內基梅隆大學語言技術研究所。他是著名的自然語言處理學者與專家,是國際計算語言協會(ACL)的首批Fellow,曾任ACL2001年主席。他主要的研究工作是機器學習、RNN(Recurrent Neural Networks,迴圈神經網路)、深度學習、計算機視覺以及自然語言處理等。他早機器翻譯、自動文摘、自動問答、文字理解等領域作出了傑出的貢獻。他自述目前自己最感興趣的兩個方向是語言計算機理解:計算機對一篇整體的文字而不是對一個個句子進行孤立的理解,這中間需要進行指代消解、實體解析和實體連結等很多工作。另一個是社會媒體,他目的並不是研究連線網路的拓撲結構,而是研究流經網路的海量的實時化的內容,從而發現人的性格、角色和特長等。
他的研究已廣泛應用於Google、Microsoft、IBM、Baidu、Facebook、Twitter等公司,特別是在迴圈神經網路中作出的貢獻,如廣泛使用的LSTM(Long Short-Term Memory,長短時記憶)與最新的據說勝過LSTM的CW-RNN(Clockwork RNN,時鐘驅動迴圈神經網路)。他已經發表了333篇論文,有7篇最佳論文。獲得了2013年國際神經網路社會(International Neural Networks Society)的Helmholtz獎(亥姆霍茲獎),並獲得2016年該會議的先鋒獎。
Alex “Sandy” Pentland
在過去的29年時間中,Perntland都任職於MIT(麻省理工大學)的教授。在這期間,他建立多個公司,如IDcubed.org、Sense Networks、Cogito Health、 Ginger.io等。根據他所取得的成就,福布斯(Forbes)稱他是世界上最有力量的資料科學家(the ‘World’s Most Powerful Data Scientist’ )。他也被任命為多個跨國公司(MNCs)的顧問(an advisor),如Nissan、Motorola、HBR、Telefonica等。他的主要興趣在機器學習、人工智慧與人類計算(Human computing)等領域。
Peter Norvig
Norvig目前任職於Google。在此之前,他在NASA工作了六年,擔任計算科學部門的負責人,期間獲得了NASA傑出貢獻獎(Exceptional Achievement Award)。是ACM、AAAI等的Fellow。他在加利福尼亞大學伯克利分校(University of California, Berkeley)獲得了電腦科學博士學位。他的興趣在於人工智慧(AI),自然語言處理(NLP)和機器學習等領域。
Corinna Cortes
Cortes目前是google的研究員。她在哥本哈根大學(University of Copenhagen)獲得物理學理學碩士,並加入貝爾實驗室(AT&T Bell Labs),在此工作超過十年。並在羅切斯特大學(University of Rochester)獲得了電腦科學博士學位。她的研究主要在人工智慧、機器學習、自然科學通論、演算法與理論等方面。並且她是一位擁有兩個孩子的媽,可謂是人生贏家。
Micheal I Jordan
Jordan是加利福尼亞大學伯克利分校電子工程系和計算科學系陳丕巨集(Pehong Chen)特聘教授(Distinguished Professor)和(UC Berkeley)統計學系的特聘教授。他近些年的研究工作主要集中在無引數貝葉斯分析、概率圖模型、譜方法、核方法以及訊號處理中的應用等方面。其中,他便是聚類演算法中廣泛使用的基於規範切(Normalized cut)譜聚類演算法提出者之一。他獲得了多個舉足輕重的獎項,如數理統計學會(Institute of Mathematical Statistics ,IMS)授予的Neyman Lecturer 和Medallion Lecturer。他獲得了加利福尼亞大學伯克利分校的認知科學博士學位,並且是麻省理工大學(MIT)的教授。
Data Scientists Turned Entrepreneur
Andrew Ng
Andrew Ng中文名為吳恩達,他和Daphne Koller共同建立Coursera(線上教育平臺)這一流大學線上課程平臺。他2014年5月16日加盟百度,成為百度首席科學家,帶領百度大腦計劃專案,負責百度研究院,開展深度學習和大資料與人工智慧可伸縮性方法。他又是史丹佛大學(Stanford University)的電腦科學系與電子工程系的副教授,人工智慧實驗室主任。他於1997年獲得了卡內基梅隆大學(CMU)的電腦科學學士學位,1998年獲得了麻省理工大學(MIT)碩士學位,並於2002年獲得加州大學(加利福尼亞大學的簡稱)伯克利分校(UC Berkeley)的博士學位,並從這一年開始在史丹佛大學任教。
在加盟百度之前,他已經在google工作了幾年,在XLab團隊開發無人駕駛汽車和谷歌眼鏡等專案,並與其他google工程師合作建立了全球最大的人工神經網路,名為Google Brain(Baidu Brain就是模仿它),對於普通資料從業者最熟悉的莫過於史丹佛大學機器學習公開課(該課是多少機器學習從業者入門的課程,其中我也是)以及使用利用團隊所開發的人工神經網路通過觀看一週YouTube視訊,自主學習與自動識別哪些是關於貓的視訊。他是人工智慧和機器學習領域國際上最權威的學者之一。
他2007年獲得了斯隆獎(Sloan Fellowship),2008年入選“the MIT Technology Review TR35”,即《麻省理工科技創業》雜誌評選出的科技創新35俊傑,以及計算機思維獎(Computers and Thought Award),並在2013年入選《Time》雜誌年度全球最有影響力的100人之一,共16位科技界人物。他的主要興趣領域在機器學習、深度學習、機器人、人工智慧、計算機視覺等方面。
ps:為啥看起來像亞洲人,因為他父親是一名香港醫生,即他是華裔。
Daphne Koller
Koller也是線上教育平臺Coursera的負責人和共同發起人之一。她在耶路撒冷希伯來大學(The Hebrew University of Jerusalem)攻讀學術與碩士學位,在史丹佛大學獲得電腦科學博士學位,在加州大學伯克利分校攻讀博士後。現為史丹佛大學教授。在攻讀博士期間,獲得了很多獎項,如傑出青年科學家獎(ONR Young Investigator Award)、ACM Infosys 基金(ACM Infosys由Infosys公司創立於2007年8月。旨在獎勵在電腦科學界做出傑出貢獻並有深遠影響的人才)、2001IJCAI計算機和思維獎(Computers and Thought Award)、麥克阿瑟獎(MacArthur Foundatin Fellowship,俗稱“天才獎”,被視為美國跨領域最高獎項之一)。她已在史丹佛大學任職了18年。她的主要興趣領域是機器學習、人工智慧與模式識別等。
Hilary Mason
Mason是快速前進實驗室(Fast Forward Labs)的發起人,也是hackNY.org與DataGotham的聯合創始人。在此之前,她在Bitly擔任首席科學家,和強生威爾士大學(Johnson & Wales University)的助理教授。她在2011年進入Fortune(財富雜誌)評出的40歲之下的財富前40(Fortune 40 under 40)與克雷格財富40週歲前40(Craig’s 40 under Fort),並獲得2012年TechFellow Engineering Leadership Award。她的主要興趣領域在機器學習、資料探勘與Python。
Sebastian Thrun
Thrun是Udacity的創始人與CEO。在此之前,他建立了Google X(Google X祕密實驗室是Google最神祕的一個部門,探索前沿科學技術與未來,這裡匯聚了其它高科技公司、各大高校和科研院所挖過來的頂級專家,可能是夢想實現之地,但是也有可能會失敗)並作為副總裁(Vice President,VP)在Google工作了7年,並在史丹佛大學擔任研究教授(Research Professor)。他旨在大眾化教育,讓每個人都有機會學習世界各地的課程。他的夢想是讓世界上每個人接受到更好的教育是這個世界更加美好。他的主要研究領域是機器學習與人工智慧。
Jeff Hammerbacher
Hammerbacher追隨DJ Patil,並提出資料科學家(Data Scientist)這個詞。他是Cloudera專案的創始人以及首席科學家。在此之前,他在Facebook帶領資料團隊,該團隊負責Facebook的統計與機器學習的應用專案。他也是西奈山醫學院(Mount Sinai School of Medicine)的助理教授。他在哈佛大學(Harvard University)獲得數學學士學位。他的主要興趣在大資料、機器學習、Hadoop以及資料探勘等領域。
Jeremy Achin
Achin 是Data Robot(資料機器人)的聯合創始人。DataRobot 聚集著世界上最好的資料科學家們,已經成為了美國成長最快的資料公司。在此之前,他是Travelers Insurance的研究與建模的領導者。他是Kaggle競賽(機器學習領域的一個競賽),他的安全係數模型排名top10%。他的主要興趣領域是預測模型、資料探勘與機器學習等。
Carla Gentry
Gentry是Analytical Solution的一名資料科學家和建立者。她在納西大學(University of Tennessee)獲得數學與經濟學碩士學位。她已在世界財富500強公司工作超過15年,如Hershey、 Kraft、Johnson & Johnson、Kellogg’s 和 Firestone。她是Twitter上大資料社群的粉最多的大V之一,被資訊週刊(Information Week)評為Twitter上的十位最有影響力的IT領導者之一(“10 IT Leaders to Follow on Twitter”)。
Data Scientists in Action
DJ Patil
Patil現擔任白宮首席資料科學家和制定資料策略的副技術長,奧巴馬親自招募他的。在此之前,他擔任Salesforce.com的RelateIQ產品的副總裁(Vice President,VP),是LindedIn的資料產品負責人和首席科學家,他的父親是一名風險投資家(venture capitalist ,VC)和Cirrus Logic的創始人。他在多個公司工作過,如LinkedIn、Greylock Partners、Skype、PayPal 和 eBay。他曾一度在美國國防部工作,使用社會網路分析來預測新的威脅。
他早年在迪安薩學院( De Anza College)學習,並在加州大學聖地亞哥分校(University of California, San Diego,)獲得數學學士以及在馬里蘭大學帕克學院(University of Maryland College Park)獲得應用數學博士學位。他曾使用美國國家海洋和大氣管理局(NOAA)公開的資料集來提高天氣預測的準確性。他和Thomas H. Davenport一起發表了一篇哈佛商業評論性文章(HBR)– “Data Scientist: The Sexiest Job of 21st Century”。他獲得了很多專利。他當選為2014年世界經濟論壇全球青年領袖。
Adam Coates
Coates在史丹佛大學獲得計算科學博士學位。目前,他被任命為百度矽谷人工智慧實驗室的高階主管(Senior Director at Baidu Silicon Valley AI Lab)。他的研究興趣主要是機器學習、深度學習、控制和機器人(Control & Robotics)。
Monica Rogati
Rogati在新墨西哥大學(The University of New Mexico,UNM)獲得電腦科學學士學位,在卡內基梅隆大學(Carnegie Mellon University,CMU)獲得電腦科學碩士與博士學位。她現為Insight Data Science的資料科學顧問。在此之前,她在LinkedIn工作,擔任高階資料科學家。以及在Jaw Bone擔任副總裁(VP),並負責多個職位的工作。她的目標是將資料轉化為產品以及可行的解決方案(actionable insights)。她的主要興趣領域在機器學習、文字挖掘(Text Mining)、推薦系統(Recommender Systems)等。
Oliver Grisel
相信大家都聽說過Scikit-learn 這個非常流行與廣為人知的基於Python的機器學習開源庫,目前最新版本為0.16,該機器學習庫包括分類、迴歸、聚類、降維、模型選擇以及資料預處理等模組。(PS:什麼,你不知道這個開源庫,好吧,回去好好學習吧)。Grisel便是這個開源專案的主要負責人之一。他主要負責該專案的Talk與視訊教程(talks and tutorial sessions )和預測模組。他目前任職於Inria Parietal的軟體工程師職位,主要負責提升Scikit-learn和其它工具庫的效率等方面。他獲得倫敦帝國理工學院(Imperial College of London)的先進計算碩士學位。他對將機器學習應用到自然語言處理和知識提取特別感興趣。
Owen Zhang
Zhang目前擔任Data Robot的首席產品官(Chief Product Officer)。他是Kaggle競賽目前世界上排名第一。並多次獲得了亞軍。在任職Data Robot之前,他在AIG(美國國際集團)擔任副總裁,在Travelers Insurance擔任科學家和高階主管、分析師和研究員。他在多倫多大學(University of Toronto)獲得碩士學位。他的主要興趣領域是預測模型、資料探勘等。
Sergey Yurgenson
Yurgenson目前在Data Robot擔任資料科學家。在此之前,他是哈佛大學醫藥學院(Harvard Medical School)的一名研究教授,已在此工作了13年。他開始是一名物理學家,在聖彼得堡國立大學(St. Petersburg State University)獲得了物理學博士學位。後來開始對分析學產生濃厚的興趣,並不斷進行資料研究。他是2012年十位資料科學家之一,目前排名世界第16位。到目前為止,Yurgenson以及贏得了幾次Kaggle競賽的冠軍。他酷愛去解決具有挑戰性的問題,並提出創新與非傳統的解決方案。
Stanislav Semenov
Semenov在Kaggle競賽中排名世界第三。他已經獲得了多個比賽的冠軍,包括奧拓集團產品分類挑戰賽(Otto Group Product Classification Challenge),目前是一名資料科學家顧問。另外,他是Yandex學院的一名資料分析教授。他在俄羅斯國家研究大學(National Research University (Russia))獲得了應用數學與資訊學的碩士學位。
Gilberto Titericz Jr.
Titericz是一名電子工程師,但是他又是一位資料科學家,並在Kaggle舉辦的機器學習與資料探勘競賽中排名世界第二。目前,他任職於巴西石油公司Petrobras,擔任自動化工程師。在此之前,他曾在多個跨國公司(MNCs)內工作,如西門子(Siemens)、諾基亞(Nokia)等。在從事8年電子資訊工作後,在2008年,他發現他最大的興趣是資料科學,從此以後,一直從事資料科學的工作與研究。
Kirk Borne
Borne目前擔任博思艾倫(Booz Allen Hamilton)公司的高階資料科學家。他不僅僅是一名資料科學家,而且還是一名天體物理學家和空間科學家(Astrophysicist and Space Scientist)。在2014年被評為IBM大資料與分析英雄。他還在Ted Talk中開設了“大資料,小世界”(Big Data,Small World)課程。除了任職於博思艾倫,他還是很多其它公司的顧問委員會成員。他在加州理工學院(California Institute of Technology)獲得了天體物理學博士學位。
Doug Cutting
在大規模計算圈與資料探勘與機器學習從業者與研究者中,我相信Hadoop是無人不知無人不曉的吧,Doug便是Hadoop之父,也是Apache Lucene、Nutch、Hadoop、Avro等開源專案的發起者與這些專案存在的原因。目前,其在Cloudera擔任首席架構師。在加盟Cloudera之前,他在多個跨國公司(MNCs)工作,如Apple、Yahoo等。在過去14年中,他一直在Apache Software Foundation中工作。他是在史丹佛大學獲得的學士學位。
總結
到這裡,文中已經列舉25位從事資料技術的資料科學家,他(她)們都是需要我們去仰慕的大牛級人物。從這些大拿中,可以發現他(她)們的共同特徵,便是他(她)們都是從事著自己的愛好與夢想相關的工作,並一致堅持,特別是前面幾位,像Geoffrey Hinton、Yann Lecun、Yoshua Bengio、Andrew Ng等這些從事神經網路與深度學習的研究和應用的大牛,他(她)們在以前被認為是一些極端分子,深度學習是邊緣科學,在不斷批判中與神經網路深度學習,他(她)們一直堅持下來,並最終得到了廣泛的應用。
這些大牛在一些頂級會議與期刊發表了大量的論文,如Science、NIPS、ICML、ACL、CVPR、ICLR、IJCAI、ICPR等。關於神經網路,在50年代末,F·Rosenblatt提出了“感知機”,它是一種多層次的神經網路。該項提出首次把人工神經網路從理論付諸到實踐中。任何新生事物向前發展勢必會遭到當前勢力的打壓,更何況,F·Rosenblatt時一個二流水的學者,並且不懂人情事故,到處張揚。那麼新事物的出現肯定會擠掉一部分舊的事物,搶到一部分人的飯碗。於是符號邏輯學派的領軍人物Minsky(據說是F·Rosenblatt的高中學長)就出來進行打壓,在60年代中下發現感知機這玩意對邏輯學裡面的一個基本問題XOR卻無能無力。於是開始寫文炮轟感知機。於是,60年代末開始,人工神經網路進入低潮。
這之後,雖然有提出多層感知器結構(MLP),但是帶來的網路的複雜性,從而沒有有效的學習方法。80時代末,研究者提出了BP演算法,給人工神經網路帶來了新的希望,並且該方法在淺層神經網路模型的非常有效。於是掀起了基於統計模型的機器學習熱潮,這個熱潮一直持續到今天。在90年代,基本上是SVM的天下,而淺層人工神經網路複雜,學習速度慢,容易出錯,理論不足的缺點導致其較為沉寂。
2000年以來,隨著網際網路的高速發展,對大資料的智慧化提出了更高的要求。隨著大規模儲存與計算工具的發明,淺層學習模型在網際網路應用中取得了巨大成功,如搜素廣告系統(Google的AdWords、百度的鳳巢系統)的廣告點選率CTR預估、網頁搜素排序(如Yahoo、Google、B百度的搜尋引擎)、垃圾郵件過濾系統、以及個性化推薦(Amazon等)。並且隨著要求的提高,開始由淺層網路向深層網路研究。
在2006年前,所嘗試的深度網路架構的學習都失敗了,從而導致ANN只有一層或兩層隱藏層。2006年,受Hinton的革命性的深度信念網(Deep Belief Networks,DBNs)的引導,Hinton[1]、Bengio[2]、Ranzato與LeCun[3]的三篇文章將深度學習帶入熱潮,將其從邊緣學科變為主流科學與技術。目前深度學習在計算機視覺、語音識別、自然語言處理等領域取得了巨大的成功。
自2006年以來,深度學習在學術界持續升溫。史丹佛大學、紐約大學、加拿大蒙特利爾大學等成為研究深度學習的重鎮。2010年,美國國防部DARPA計劃首次資助深度學習專案,參與方有史丹佛大學、紐約大學和NEC美國研究院。支援深度學習的一個重要依據,就是腦神經系統的確具有豐富的層次結構。一個最著名的例子就是Hubel-Wiesel模型,由於揭示了視覺神經的機理而曾獲得諾貝爾醫學與生理學獎。除了仿生學的角度,目前深度學習的理論研究還基本處於起步階段,但在應用領域已顯現出巨大能量。
2011年以來,微軟研究院和Google的語音識別研究人員先後採用DNN技術降低語音識別錯誤率20%~30%,是語音識別領域十多年來最大的突破性進展。2012年,DNN技術在影象識別領域取得驚人的效果,在ImageNet評測上將錯誤率從26%降低到15%。在這一年,DNN還被應用於製藥公司的DrugeActivity預測問題,並獲得世界最好成績,這一重要成果被《紐約時報》報導。
今天Google、微軟、百度、Facebook、Twitter、Alibaba等知名的擁有大資料的高科技公司爭相投入資源,佔領深度學習的技術制高點,正是因為他們都看到了在大資料時代,更加複雜且更加強大的深度模型能深刻揭示海量資料裡所承載的複雜而豐富的資訊,並對未來或未知事件做更精準的預測。
如果你熱愛資料,你熱愛資料科學,那麼follow這些大牛。站在巨人的肩膀上學習!!!
最後貼一張圖,你們感受一下(圖片中部分人不在文章中,文章中的大部分人也不在圖中):
PS:文字是文章[4]的譯文,以及在譯文上進行補充。
參考文獻
[1] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets.[J]. Neural Computation, 2006, 18(7):2006.
[2] Bengio Y, Lamblin P, Popovici D, et al. Greedy layer-wise training of deep networks[J]. Advances in Neural Information Processing Systems, 2007:153-160.
[3] Marc’Aurelio Ranzato, Christopher Poultney, Sumit Chopra and Yann LeCun Efficient Learning of Sparse Representations with an Energy-Based Model, in J. Platt et al. (Eds), Advances in Neural Information Processing Systems (NIPS 2006), MIT Press, 2007
[4] 原文:http://www.analyticsvidhya.com/blog/2015/09/ultimate-data-scientists-world-today/(原文算錯了,應該是25位)