資料科學50年,資料科學家是否依然是21世紀最性感的職業?

qing_yun發表於2020-05-29

      【IT168  評論】在如今的資料智慧時代,幾乎所有人都相信“資料的真實價值就像漂浮在海洋中的冰山,第一眼你只能看到冰山一角,而絕大部分則隱藏在表面之下。”當資料的價值依然在冰山之下隱藏,外面的世界便瀰漫著對資料的渴望。

  一些新的職業成為資料海洋裡的新星,“資料科學家”無疑是最亮的之一,它被譽為21世紀最性感的職業,但是近年來隨著平民資料科學家的發展,有人指出資料科學家將要消失,也有國外相關人士建議不要去選資料科學家這個職業,資料科學家還是21世紀最性感的職業嗎?

資料科學五十年仍是少年

  資料科學家泛指資料科學的從業者,追溯資料科學家的源頭可以到資料科學誕生的1966年,當時Peter Naur提出"資料科學"(“DataScience”起初叫"datalogy "),用來代替"電腦科學"。1996年,International Federation of Classification Societies (IFCS)國際會議召開。資料科學一詞首次出現在會議(Data Science, classification, and related methods)標題裡。

  在2000年代中期資料科學家職位開始出現,2009年Natahn Yau指出資料科學家是是採用科學方法、運用資料探勘工具尋找新的資料洞察的工程師,資料科學家集技術專家與數量分析師的角色於一身。

  實際上大資料和資料科學在內的整個資料行業最初都是由Google、Facebook、Twitter等網際網路巨頭驅動,現在仍然如此。總部位於歐洲的JetBrains是國際知名軟體開發工具提供商,其產品經理Andrey Cheptsov認為網際網路巨頭能夠推動資料行業的發展首先有所需求、並有能力進行大規模有效處理資料,其主要業務模型從核心上取決於自身處理大規模資料的效率。

  隨著大資料行業的發展,資料科學家成為了職場新星,更是被財富雜誌譽為21世紀最性感的職業。但是資料科學家在初期成長也並非一帆風順,根據商業智慧公司SiSense在2012 年左右的一項報告,在接受調查的全球400位資料科學家和資料分析人士中,59%的資料科學家在從業六年後都另謀高就。儘管該職業的報酬豐厚,其中超過半數表示對職業安全性的擔憂。

  彼時麥肯錫等諮詢公司力挺資料科學家,堅信資料科學家是當今和未來稀缺的資源。隨著智慧手機的普及移動網際網路的發展,資料價值越發凸顯,資料科學家水漲船高。LinkedIn 釋出的《2017 年美國新興工作崗位報告》中指出,“自 2012 年以來,資料科學家的職位增長了 650% 以上”且“數百家企業都在招聘這些職位”。

  國內近幾年也有網際網路公司近幾年開始逐步設立獨立的資料科學(DataScience)團隊,推動公司向資料驅動發展。進入21世紀20年代,資料科學家成為更稀缺的資源,很多人也依然相信它還是21世紀最性感的職業。

  不過榮譽傍身的新星也有“暗淡”的一面,2017年有研究指出資料科學家成為離職率最高的職位之一,通常他們每週都會花費一定的時間尋找新工作。日前仍然有資料科學家從業者勸諫後來者不要入坑,可謂是冰火兩重天,何以至此?

  資料科學五十年依舊是少年模樣,就如同“AI”這個名詞在1956年出現到如今60多年才有初步落地,資料科學是一個綜合性的學科,國內外很多從業者認為資料科學依然是探索性的工作,管理層對 “資料科學” 的含義往往沒有達成共識。

  雖然已經經過至少10多年的發展,現在可能受限於業務,沒有辦法生搬硬套一個角色框架給資料科學家,企業也容易將資料科學家和資料工程師混淆。JetBrains產品經理Maria Khalusova認為“資料科學家”和“資料工程師”這兩種職位角色在行業中還是相當新的,也正因此,通常沒有明確的職責劃分。“我們看到在某些公司中由資料科學家承擔的職責,在其他公司中這些職責卻由資料工程師承擔。另一個越來越常見的新角色是機器學習工程師,但也是同樣的情況,他們也經常與資料工程師發生重疊。”Maria Khalusova在接受IT168採訪時指出。

資料科學家VS資料工程師

  新的技術融入產業和社會必然會帶來一場職業的辭舊迎新,這個過程並沒有那麼快速。

  “從技術角度來看,資料科學在某些情況下的實踐似乎還不如傳統軟體開發成熟。企業可能會面臨以下挑戰:建立可重現的機器學習管道,對資料和模型進行版本控制以進行稽核,與快速發展的技術保持同步。”Maria Khalusova指出。

  資料科學家和資料工程師的角色兩者有許多共同的特點和共技能。這些重疊的技能包括處理和操作大資料集、應用資料的程式設計技能、資料分析技能以及對系統操作的總體熟練程度。不過兩者還是有很大的不同。在筆者之前翻譯的文章中也強調了資料科學家和資料工程師不可能合二為一,為了從資料中獲得價值,大多數企業組織都需要資料科學和資料工程,由於相關技能有很大差異,二者合體也不太現實。企業組織可能需要多個資料科學家和資料工程師,但兩者之間的比例很少是1:1。對於大多數企業組織來說,擁有更多的資料工程師比資料科學家更有意義。因為資料科學家已經學會處理大量的乾淨資料,但是從許多不同系統獲得大量的乾淨資料更難也更具挑戰。與抽象資料模型和對資料集執行分析相比,移動和清理資料的工作量更大。

  從技能需求方面也有很大的差異,Maria Khalusova認為,廣義上來講,資料工程師通常必須熟悉那些為分散式資料處理而設計的工具,例如Apache Spark、Apache Hadoop、Apache Ignite等。他們要具備資料倉儲和資料湖方面的經驗,因為他們需要能夠熟練地使用Java、Scala和Kotlin等JVM語言,並且必須能夠建立和維護大多數資料基礎架構。

  資料科學家則需要了解Python語言、R語言或兩者兼具,並且能夠獲取資料(例如使用SQL或Spark)、整理資料、分析資料、訓練預測模型並將資料驅動的洞察提供給利益相關者。他們需要在統計方法和機器學習方法(包括深度學習)方面有紮實的基礎。在某些公司中,資料科學家也會參與機器學習模型的部署。

  儘管現在很多企業對於資料科學家和資料工程師職位的劃分還不是那麼明確,但是未來更加精細化的分工是大勢所趨。當然這並不會一蹴而就,新職位不是憑空而來,需要一個漸進的過程和角色轉化,國內某頭部網際網路公司兩年前正式組建了資料科學團隊,而團隊成員以前散落在集團各業務部門,其中有資料分析師也有大資料專家,而資料科學團隊成立以來,讓資料驅動業務運營,更加高效。

  國內另一家頭部直播平臺正在招聘資料科學家職位,從招聘資訊描述來看,資料科學家屬於其資料分析部,其工作職責包括分析和挖掘海量資料,發現使用者行為模式與規律,最佳化使用者體驗,提升社群粘性,透過資料分析和經濟運籌模型最佳化,為公司不同的運營團隊制定目標和策略,關注落地結果等。而職業技能要求需要熟練使用SQL、Python或R語言進行資料分析、視覺化呈現,具有統計學和機率論基礎,擅長資料分析,瞭解常見規統計機器學習模型及使用等,其需求與Maria Khalusova所說基本一致。

  有分析稱近來對AI、機器學習(ML)、非ML預測分析和“大資料”的應用,使得資料科學家的需求有了顯著的增長。不過從這一點來看資料科學是不是21世紀最性感的職業還為時尚早,公民資料科學家的到來讓不少人為此打上了大大的問號。

全民資料科學家時代到來?

  早在2013年就有專家指出對資料科學家的“炒作”該結束了,他們認為大資料走入了一個新的階段。企業使用者利用直覺和互動的UI來從大資料中獲取價值,從而避免依賴於資料科學家,應該讓大資料變得更加民主。

  市場競爭加劇,外部環境和技術飛速變化,需要業務和技術更高效聯動更及時有效瞭解使用者需求,明確企業自身現狀,為企業決策提供幫助。隨著大資料技術不斷走向成熟,技術應用的門檻也不斷降低,複雜的資料統計可能仍限於資料科學家,一些視覺化分析工具和敏捷的大資料工具可以讓業務人員能夠輕鬆上手,大資料民主化也催生出了公民資料科學家這個概念。

  根據Gartner 的定義,公民資料科學家(Citizen Data Scientist )“能夠建立或生成採用高階診斷分析或預測和規範功能的模型,但本職工作並不屬於統計和分析領域”,近兩年關於公民資料科學家概念也異常火爆。

  有人指出公民資料科學家發展預示著全民資料科學家時代的到來,資料科學家可能會退出舞臺,也有人認為數字化智慧時代,資料的增長和資料價值的重要性日益凸顯,企業對資料科學家和資料分析人員需求不斷擴大,而人才缺口較大,公民資料科學家是暫時填補供需之間不平衡的一個方案,資料科學家仍然是最亮的星。

  可以看到近兩年技術民主化成了熱點,不只是公民資料科學家,還有公民開發者,在Gartner的定義中公民開發者是指在傳統IT渠道之外的建立應用程式的業務使用者,低程式碼/零程式碼的發展促使了全民開發者時代的到來。公民開發者無法替代開發者,同樣的公民資料科學家也無法替代資料科學家。術業有專攻,資料科學家會向著更高階和更專業的資料分析方向發展,正如Gartner所說,公民資料科學家可以彌合企業使用者採用的主流自助型分析和資料科學家掌握的高階分析技術之間的鴻溝。

  目前,越來越多的企業構建資料文化,將自身打造成資料驅動的組織。“由於技術公司蘊含的技術文化,也使他們(網際網路企業)自然地在資料工程和資料科學方面更加領先。今天,我們看到越來越多的公司開始接受技術文化,因為這已成為競爭優勢所在。與此同時,同樣的事情也發生在傳統產業。今天,各行各業的許多公司都開始嘗試將其業務轉到網際網路上。可以這樣說,未來所有公司遲早都會成為網際網路公司,也都會更加註重技術文化。”Andrey Cheptsov指出,與此同時軟體開發越來越多地涉及到資料,這意味著軟體不再僅僅是一組演算法,而是一組經過資料訓練的模型。收集和處理這些資料,並進行建模和部署機器學習(ML)模型,已成為軟體開發的一部分。

  技術不斷迭代進化,新的職位也會出現,員工與企業組織都面臨著新的挑戰與機遇。很多人都願意相信資料科學家未來可期,只是不要把職業角色和應該掌握的技能標籤化,畢竟需求是動態變化的,是需要個體與時代彼此適應的。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69925873/viewspace-2695072/,如需轉載,請註明出處,否則將追究法律責任。

相關文章