【資料科學家】如何成為一名資料科學家?

產業智慧官發表於2018-05-05

僅僅在幾年前,資料科學家還不是一個正式確定的職業,然而一眨眼的工夫,這個職業就已經被譽為“今後十年IT行業最重要的人才”了。

一、資料科學家的起源

"資料科學"(DataScience)起初叫"datalogy "。最初在1966年由Peter Naur提出,用來代替"電腦科學"(丹麥人,2005年圖靈獎得主,丹麥的計算機學會的正式名稱就叫Danish Society of Datalogy,他是這個學會的第一任主席。Algol 60是許多後來的程式設計語言,包括今天那些必不可少的軟體工程工具的原型。圖靈獎被認為是“計算科學界的諾貝爾獎”。)


1996年,International Federation of Classification Societies (IFCS)國際會議召開。資料科學一詞首次出現在會議(Data Science, classification, and related methods)標題裡。


1998年,C.F. Jeff Wu做出題為“統計學=資料科學嗎? 的演講,建議統計改名資料的科學統計資料的科學家。 (吳教授於1987年獲得COPSS獎,2000年在臺灣被選為中研院院士,2004年作為第一位統計學者當選美國國家工程院院士,也是第一位華人統計學者獲此殊榮。)


2002年,國際科學理事會:資料委員會科學和技術(CODATA)開始出版資料科學雜誌。


2003年,美國哥倫比亞大學開始釋出資料科學雜誌,主要內容涵蓋統計方法和定量研究中的應用。


2005年,美國國家科學委員會發表了"Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century",其中給出資料科學家的定義:

"the information and computer scientists, database and software and programmers, disciplinary experts, curators and expert annotators, librarians, archivists, and others, who are crucial to the successful management of a digital data collection"

資訊科學與電腦科學家,資料庫和軟體工程師,領域專家,策展人和標註專家,圖書管理員,檔案員等數字資料管理收集者都以可成為資料科學家。它們主要任務是:"進行富有創造性的查詢和分析。"


2012年,O'Reilly媒體的創始人 Tim O'Reilly 列出了世界上排名前7位的資料科學家。

  • Larry Page,谷歌CEO。

  • Jeff Hammerbacher,Cloudera的首席科學家和DJ Patil,Greylock風險投資公司企業家。

  • Sebastian Thrun,史丹佛大學教授和Peter Norvig,谷歌資料科學家。

  • Elizabeth Warren,Massachusetts州美國參議院候選人。

  • Todd Park,人類健康服務部門技術長。

  • Sandy Pentland,麻省理工學院教授。

  • Hod Lipson and Michael Schmidt,康奈爾大學電腦科學家。


具體有時間再補充,感興趣的朋友可以Google Scholar一下他們的文獻。

關於資料科學家的更多討論:
你能列出十個著名的女性資料科學家嗎?Can you name 10 famous data scientist women?
誰是最富有的資料科學家?Who are the wealthiest data scientists?
請列出對大資料最具有影響力的20個人?Who Are The Top 20 Influencers in Big Data?

二、資料科學家的定義

資料科學(Data Science)是從資料中提取知識的研究,關鍵是科學。資料科學整合了多種領域的不同元素,包括訊號處理,數學,概率模型技術和理論,機器學習,計算機程式設計,統計學,資料工程,模式識別和學習,視覺化,不確定性建模,資料倉儲,以及從資料中析取規律和產品的高效能運算。資料科學並不侷限於大資料,但是資料量的擴大誠然使得資料科學的地位越發重要。


資料科學的從業者被稱為資料科學家。資料科學家通過精深的專業知識在某些科學學科解決複雜的資料問題。不遠的將來,資料科學家們需要精通一門、兩門甚至多門學科,同時使用數學,統計學和電腦科學的生產要素展開工作。所以資料科學家就如同一個team。


曾經投資過Facebook,LinkedIn的格雷洛克風險投資公司把資料科學家描述成“能夠管理和洞察資料的人”。在IBM的網站上,資料科學家的角色被形容成“一半分析師,一半藝術家”。他們代表了商業或資料分析這個角色的一個進化。

for example – a data scientist will most likely explore and examine data from multiple disparate sources. The data scientist will sift through all incoming data with the goal of discovering a previously hidden insight, which in turn can provide a competitive advantage or address a pressing business problem. A data scientist does not simply collect and report on data, but also looks at it from many angles, determines what it means, then recommends ways to apply the data.


  • Anjul Bhambhri,IBM的大資料產品副總裁。

資料科學家是一個好奇的,不斷質疑現有假設,能盯著資料就能指出趨勢的人。這就好像在文藝復興時期,一個非常想為組織帶來挑戰並從挑戰中學習的人一樣。

  • Jonathan Goldman,LinkedIn資料科學家。

2006年的6月份進入商務社交網站LinkedIn,當時LinkedIn只有不到800萬使用者。高德曼在之後的研究中創造出新的模型,利用資料預測註冊使用者的人際網路。具體來講,他以使用者在LinkedIn的個人資料,來找到和這些資訊最匹配的三個人,並以推薦的形式顯示在使用者的使用頁面上——這也就是我們熟悉的"你可能認識的人(People you may know)"。這個小小的功能讓LinkedIn增加了數百萬的新的頁面點選量(資料探勘的應用典型之一推薦系統)。

  • John Rauser, 亞馬遜大資料科學家。

資料科學家是工程師和統計學家的結合體。從事這個職位要求極強的駕馭和管理海量資料的能力;同時也需要有像統計學家一樣萃取、分析資料價值的本事,二者缺一不可。

  • Steven Hillion, EMC Greenplum資料分析副總裁。

資料科學家是具有極強分析能力和對統計和數學有很深研究的資料工程師。他們能從商業資訊等其他複雜且海量的資料庫中洞察新趨勢。

  • Monica Rogati, LinkedIn資深資料科學家。

所有的科學家都是資料學家,因為他們整天都在和海量資料打交道。在我眼中,資料學家是一半黑客加一半分析師。他們通過資料建立看待事物的新維度。資料學家必須能夠用一隻眼睛發現新世界,用另一隻眼睛質疑自己的發現。

  • Daniel Tunkelang,LinkedIn首席資料科學家。

我是bitly 首席科學家Hilary Mason的忠實崇拜者。關於這個新概念的定義我也想引用她的說法:資料科學家是能夠利用各種資訊獲取方式、統計學原理和機器的學習能力對其掌握的資料進行收集、去噪、分析並解讀的角色。

  • Michael Rappa,北卡羅萊納州立大學教授。

儘管資料科學家這個名稱最近才開始在矽谷出現,但這個新職業的產生卻是基於人類上百年對資料分析的不斷積累和衍生。和資料科學家最接近的職業應該是統計學家,只不過統計學家是一個成熟的定義且服務領域基本侷限於政府和學界。資料科學家把統計學的精髓帶到了更多的行業和領域。

  • 林仕鼎,百度大資料首席架構師。

如果從廣義的角度講,從事資料處理、加工、分析等工作的資料科學家、資料架構師和資料工程師都可以籠統地稱為資料科學家;而從狹義的角度講,那些具有資料分析能力,精通各類演算法,直接處理資料的人員才可以稱為資料科學家。


最後引用Thomas H. Davenport(埃森哲戰略變革研究院主任) 和 D.J. Patil(美國科學促進會科學與技術政策研究員,為美國國防部服務)的話來總結資料科學家需要具備的能力:

  • 資料科學家傾向於用探索資料的方式來看待周圍的世界。(好奇心)

  • 把大量散亂的資料變成結構化的可供分析的資料,還要找出豐富的資料來源,整合其他可能不完整的資料來源,並清理成結果資料集。(問題分體整理能力)

  • 新的競爭環境中,挑戰不斷地變化,新資料不斷地流入,資料科學家需要幫助決策者穿梭於各種分析,從臨時資料分析到持續的資料互動分析。(快速學習能力)

  • 資料科學家會遇到技術瓶頸,但他們能夠找到新穎的解決方案。(問題轉化能力)

  • 當他們有所發現,便交流他們的發現,建議新的業務方向。(業務精通

  • 他們很有創造力的展示視覺化的資訊,也讓找到的模式清晰而有說服力。(表現溝通能力)

  • 他們會把蘊含在資料中的規律建議給Boss,從而影響產品,流程和決策。(決策力)



三、資料科學家所需硬體技能

《資料之美 Beautiful Data》的作者Jeff Hammerbacher在書中提到,對於 Facebook 的資料科學家“我們發現傳統的頭銜如商業分析師、統計學家、工程師和研究科學家都不能確切地定義我們團隊的角色。該角色的工作是變化多樣的:


在任意給定的一天,團隊的一個成員可以用 Python 實現一個多階段的處理管道流、設計假設檢驗、用工具R在資料樣本上執行迴歸測試、在 Hadoop 上為資料密集型產品或服務設計和實現演算法,或者把我們分析的結果以清晰簡潔的方式展示給企業的其他成員。為了掌握完成這多方面任務需要的技術,我們創造了資料科學家這個角色。”


(1) 電腦科學

一般來說,資料科學家大多要求具備程式設計、電腦科學相關的專業背景。簡單來說,就是對處理大資料所必需的Hadoop、Mahout等大規模並行處理技術與機器學習相關的技能。

  • 零基礎學習 Hadoop 該如何下手?

  • 想從事大資料、海量資料處理相關的工作,如何自學打基礎?

(2) 數學、統計、資料探勘等

除了數學、統計方面的素養之外,還需要具備使用SPSS、SAS等主流統計分析軟體的技能。其中,面向統計分析的開源程式語言及其執行環境“R”最近備受矚目。R的強項不僅在於其包含了豐富的統計分析庫,而且具備將結果進行視覺化的高品質圖表生成功能,並可以通過簡單的命令來執行。此外,它還具備稱為CRAN(The Comprehensive R Archive Network)的包擴充套件機制,通過匯入擴充套件包就可以使用標準狀態下所不支援的函式和資料集。R語言雖然功能強大,但是學習曲線較為陡峭,個人建議從python入手,擁有豐富的statistical libraries,NumPy ,SciPy.org ,Python Data Analysis Library,matplotlib: python plotting。

  • 如何系統地學習資料探勘?

  • 做資料分析不得不看的書有哪些?

  • 怎麼學習用R語言進行資料探勘?

(3) 資料視覺化(Visualization)

資訊的質量很大程度上依賴於其表達方式。對數字羅列所組成的資料中所包含的意義進行分析,開發Web原型,使用外部API將圖表、地圖、Dashboard等其他服務統一起來,從而使分析結果視覺化,這是對於資料科學家來說十分重要的技能之一。

  • 有哪些值得推薦的資料視覺化工具?

(4) 跨界為王

麥肯錫認為未來需要更多的“translators”,能夠在IT技術,資料分析和商業決策之間架起一座橋樑的複合型人才是最被人需要的。”translators“可以驅動整個資料分析戰略的設計和執行,同時連線的IT ,資料分析和業務部門的團隊。如果缺少“translators“,即使擁有高階的資料分析策略和工具方法也是於事無補的。

The data strategists’combination of IT knowledge and experience making business decisions makes them well suited to define the data requirements for high-value business analytics. Data scientists combine deep analytics expertise with IT know-how to develop sophisticated models and algorithms. Analytic consultants combine practical business knowledge with analytics experience to zero in on high-impact opportunities for analytics.

天才的”translators“非常罕見。但是大家可以各敬其職(三個臭皮匠臭死諸葛亮),資料戰略家可以使用IT知識和經驗來制定商業決策,資料科學家可以結合對專業知識的深入理解使用IT技術開發複雜的模型和演算法,分析顧問可以結合實際的業務知識與分析經驗聚焦下一個行業爆點。

推薦關注:https://www.facebook.com/data

四、資料科學家的培養

位於伊利諾伊州芝加哥郊外埃文斯頓市的美國名牌私立大學——西北大學(Northwestern University),就是其中之一。西北大學決定從2012年9月起在其工程學院下成立一個主攻大資料分析課程的分析學研究生院,並開始了招生工作。西北大學對於成立該研究生院是這樣解釋的:“雖然只要具備一些Hadoop和Cassandra的基本知識就很容易找到工作,但擁有深入知識的人才卻是十分缺乏的。”

此外,該研究生院的課程計劃以“傳授和指導將業務引向成功的技能,培養能夠領導專案團隊的優秀分析師”為目標,授課內容在數學、統計學的基礎上,融合了尖端計算機工程學和資料分析。課程預計將涵蓋分析領域中主要的三種資料分析方法:預測分析、描述分析(商業智慧和資料探勘)和規範分析(優化和模擬),具體內容如下。

(1) 秋學期
* 資料探勘相關的統計方法(多元Logistic迴歸分析、非線性迴歸分析、判別分析等)
* 定量方法(時間軸分析、概率模型、優化)
* 決策分析(多目的決策分析、決策樹、影響圖、敏感性分析)
* 樹立競爭優勢的分析(通過專案和成功案例學習基本的分析理念)

(2) 冬學期
*  資料庫入門(資料模型、資料庫設計)
*  預測分析(時間軸分析、主成分分析、非引數迴歸、統計流程控制)
*  資料管理(ETL(Extract、Transform、Load)、資料治理、管理責任、後設資料)
*  優化與啟發(整數計劃法、非線性計劃法、區域性探索法、超啟發(模擬退火、遺傳演算法))

(3) 春學期
*  大資料分析(非結構化資料概念的學習、MapReduce技術、大資料分析方法)
*  資料探勘(聚類(k-means法、分割法)、關聯性規則、因子分析、存活時間分析)
*  其他,以下任選兩門(社交網路、文字分析、Web分析、財務分析、服務業中的分析、能源、健康醫療、供應鏈管理、綜合營銷溝通中的概率模型)

(4) 秋學期
*  風險分析與運營分析的計算機模擬
*  軟體層面的分析學(組織層面的分析課題、IT與業務使用者、變革管理、資料課題、結果的展現與傳達方法)





640?wx_fmt=jpeg

(EMC的線上課程:Data Science and Big Data Analytics Training,收費T_T,大家可以瞭解下學習路徑)






(5)分享一些免費的課程
以下課程免費,講師都是領域的專家,需要提前報名,請注意開班的時間。

  • Coursera.org:統計學。

  • Coursera.org:機器學習。

  • Coursera.org:資料分析的計算方法。

  • Coursera.org:大資料。

  • Coursera.org:資料科學導論。

  • Coursera.org:資料分析。

名校課程,需要一定的英語基礎和計算機基礎:

  • Statistical Thinking and Data Analysis:麻省理工學院的統計思維與資料分析課。概率抽樣,迴歸,常見分佈等。

  • Data Mining | Sloan School of Management:麻省理工學院的資料探勘課程,資料探勘的知識以及機器學習演算法。

  • Rice University Data Visualization:萊斯大學的資料視覺化,從統計學的角度分析資訊視覺化。

  • Harvard University Introduction to Computing, Modeling, and Visualization: 哈佛大學,如何在數學計算與資料互動視覺化之間架起橋樑。

  • UC Berkeley Visualization:加州大學伯克利分校資料視覺化。

  • Data Literacy Course -- IAP:兩個MIT的資料研究生,如何分析處理視覺化資料。

  • Columbia University Applied Data Science:哥倫比亞大學,資料分析方法。需要一定的資料基礎。

  • SML: Systems:加州大學伯克利分校,可擴充套件的機器學習方法。從硬體系統,並行化正規化到MapReduce+Hadoop+BigTable,非常全面系統。


五、資料科學家的前景



640?wx_fmt=jpeg

(EMC - Leading Cloud Computing, Big Data, and Trusted IT Solutions,關於資料科學家的研究)




640?wx_fmt=jpeg

Like the physical universe, the digital universe is large – by 2020 containing nearly as many digital bits as there are stars in the universe. It is doubling in size every two years, and by 2020 the digital universe – the data we create and copy annually – will reach 44 zettabytes, or 44 trillion gigabytes.


EMC預測,按照目前的情況數字宇宙以每兩年一番的速度倍增,在2020年將到達44ZB(1ZB=1.1805916207174113e+21B)。EMC做出了5點比較大膽的預測。

  • In 2013, while about 40% of the information in the digital universe required some type of data protection, less than 20% of the digital universe actually had these protections.

  • Data from embedded systems, the signals from which are a major component of the Internet of Things, will grow from 2% of the digital universe in 2013 to 10% in 2020.

  • In 2013, less than 20% of the data in the digital universe is “touched” by the cloud, either stored, perhaps temporarily, or processed in some way. By 2020, that percentage will double to 40%.

  • Most of the digital universe is transient – unsaved Netflix or Hulu movie streams, or Xbox One gamer interactions, temporary routing information in networks, sensor signals discarded when no alarms go off, etc. – and it is getting more so. This is a good thing, because the world’s amount of available storage capacity (i.e., unused bytes) across all media types is growing slower than the digital universe. In 2013, the available storage capacity could hold just 33% of the digital universe. By 2020, it will be able to store less than 15%.

  • In 2014, the digital universe will equal 1.7 megabytes a minute for every person on Earth.


640?wx_fmt=jpeg

Between 2013 and 2020 the division of the digital universe between mature and emerging markets (e.g., China) will switch – from 60% accounted for by mature markets to 60% of the data in the digital universe coming from emerging markets.


EMC預測在2017年左右新興的市場將超越成熟市場,東亞國家是最具潛力的引爆點。(大家是不是有點小激動,前景一片光明)


六、結束語

推薦網站:

Data Science Central (資料科學中心,大牛雲集,資源豐富,討論者熱情,各種課程)

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png


人工智慧賽博物理作業系統

AI-CPS OS

人工智慧賽博物理作業系統新一代技術+商業作業系統“AI-CPS OS:雲端計算+大資料+物聯網+區塊鏈+人工智慧)分支用來的今天,企業領導者必須瞭解如何將“技術”全面滲入整個公司、產品等“商業”場景中,利用AI-CPS OS形成數字化+智慧化力量,實現行業的重新佈局、企業的重新構建和自我的煥然新生。


AI-CPS OS的真正價值並不來自構成技術或功能,而是要以一種傳遞獨特競爭優勢的方式將自動化+資訊化、智造+產品+服務資料+分析一體化,這種整合方式能夠釋放新的業務和運營模式。如果不能實現跨功能的更大規模融合,沒有顛覆現狀的意願,這些將不可能實現。


領導者無法依靠某種單一戰略方法來應對多維度的數字化變革。面對新一代技術+商業作業系統AI-CPS OS顛覆性的數字化+智慧化力量,領導者必須在行業、企業與個人這三個層面都保持領先地位:

  1. 重新行業佈局:你的世界觀要怎樣改變才算足夠?你必須對行業典範進行怎樣的反思?

  2. 重新構建企業:你的企業需要做出什麼樣的變化?你準備如何重新定義你的公司?

  3. 重新打造自己:你需要成為怎樣的人?要重塑自己並在數字化+智慧化時代保有領先地位,你必須如何去做?

AI-CPS OS是數字化智慧化創新平臺,設計思路是將大資料、物聯網、區塊鏈和人工智慧等無縫整合在雲端,可以幫助企業將創新成果融入自身業務體系,實現各個前沿技術在雲端的優勢協同。AI-CPS OS形成的字化+智慧化力量與行業、企業及個人三個層面的交叉,形成了領導力模式,使數字化融入到領導者所在企業與領導方式的核心位置:

  1. 精細種力量能夠使人在更加真實、細緻的層面觀察與感知現實世界和數字化世界正在發生的一切,進而理解和更加精細地進行產品個性化控制、微觀業務場景事件和結果控制。

  2. 智慧:模型隨著時間(資料)的變化而變化,整個系統就具備了智慧(自學習)的能力。

  3. 高效:企業需要建立實時或者準實時的資料採集傳輸、模型預測和響應決策能力,這樣智慧就從批量性、階段性的行為變成一個可以實時觸達的行為。

  4. 不確定性:數字化變更顛覆和改變了領導者曾經仰仗的思維方式、結構和實踐經驗,其結果就是形成了複合不確定性這種顛覆性力量。主要的不確定性蘊含於三個領域:技術、文化、制度。

  5. 邊界模糊:數字世界與現實世界的不斷融合成CPS不僅讓人們所知行業的核心產品、經濟學定理和可能性都產生了變化,還模糊了不同行業間的界限。這種效應正在向生態系統、企業、客戶、產品快速蔓延。

AI-CPS OS形成的數字化+智慧化力量通過三個方式激發經濟增長:

  1. 創造虛擬勞動力,承擔需要適應性和敏捷性的複雜任務,即“智慧自動化”,以區別於傳統的自動化解決方案;

  2. 對現有勞動力和實物資產進行有利的補充和提升,提高資本效率

  3. 人工智慧的普及,將推動多行業的相關創新,開闢嶄新的經濟增長空間


給決策制定者和商業領袖的建議:

  1. 超越自動化,開啟新創新模式:利用具有自主學習和自我控制能力的動態機器智慧,為企業創造新商機;

  2. 迎接新一代資訊科技,迎接人工智慧:無縫整合人類智慧與機器智慧,重新

    評估未來的知識和技能型別;

  3. 制定道德規範:切實為人工智慧生態系統制定道德準則,並在智慧機器的開

    發過程中確定更加明晰的標準和最佳實踐;

  4. 重視再分配效應:對人工智慧可能帶來的衝擊做好準備,制定戰略幫助面臨

    較高失業風險的人群;

  5. 開發數字化+智慧化企業所需新能力:員工團隊需要積極掌握判斷、溝通及想象力和創造力等人類所特有的重要能力。對於中國企業來說,創造兼具包容性和多樣性的文化也非常重要。


子曰:“君子和而不同,小人同而不和。”  《論語·子路》雲端計算、大資料、物聯網、區塊鏈和 人工智慧,像君子一般融合,一起體現科技就是生產力。


如果說上一次哥倫布地理大發現,擴充的是人類的物理空間。那麼這一次地理大發現,擴充的就是人們的數字空間。在數學空間,建立新的商業文明,從而發現新的創富模式,為人類社會帶來新的財富空間。雲端計算,大資料、物聯網和區塊鏈,是進入這個數字空間的船,而人工智慧就是那船上的帆,哥倫布之帆!


新一代技術+商業的人工智慧賽博物理作業系統AI-CPS OS作為新一輪產業變革的核心驅動力,將進一步釋放歷次科技革命和產業變革積蓄的巨大能量,並創造新的強大引擎。重構生產、分配、交換、消費等經濟活動各環節,形成從巨集觀到微觀各領域的智慧化新需求,催生新技術、新產品、新產業、新業態、新模式。引發經濟結構重大變革,深刻改變人類生產生活方式和思維模式,實現社會生產力的整體躍升。



產業智慧官  AI-CPS


用“人工智慧賽博物理作業系統新一代技術+商業作業系統“AI-CPS OS”:雲端計算+大資料+物聯網+區塊鏈+人工智慧)在場景中構建狀態感知-實時分析-自主決策-精準執行-學習提升的認知計算和機器智慧;實現產業轉型升級、DT驅動業務、價值創新創造的產業互聯生態鏈


640?wx_fmt=png

640?wx_fmt=png

長按上方二維碼關注微信公眾號: AI-CPS,更多資訊回覆:


新技術“雲端計算”、“大資料”、“物聯網”、“區塊鏈”、“人工智慧新產業:智慧製造”、智慧金融”、“智慧零售”、“智慧駕駛”、智慧城市新模式:“財富空間“工業網際網路”、“資料科學家”、“賽博物理系統CPS”、“供應鏈金融”





本文系“產業智慧官”(公眾號ID:AI-CPS)收集整理,轉載請註明出處!



版權宣告產業智慧官(公眾號ID:AI-CPS推薦的文章,除非確實無法確認,我們都會註明作者和來源。部分文章推送時未能與原作者取得聯絡。若涉及版權問題,煩請原作者聯絡我們,與您共同協商解決。聯絡、投稿郵箱:erp_vip@hotmail.com





相關文章