近年來,資料行業不斷湧現的職能和頭銜讓人驚訝。不可否認,這是一個模糊不清的領域,甚至連從業者對這個領域的構成也有不同看法,但有一些趨勢是公認的。隨著資料相關的職位、投資和技術越來越多,機構對資料的重視也達到了前所未有的程度。
為了方便閱讀,我想按幾種技術革命來介紹資料角色,尤其是那些在未來將不斷髮展的革命。此外,我最近寫了一篇關於資料分析角色演變的文章,可以為本文提供很好的背景知識。
附連結:
https://deepesh-nair.blog/2018/08/03/the-evolution-of-analytics-with-data/
這將是一篇長文,如果你覺得有點疲憊,唯一的忠告就是:先去喝杯咖啡吧!
商業智慧(BI)角色
不可否認,在2018年的科技界,“BI”算不上時髦的詞彙。這讓我們這一代“資料人”感到很不自在。難道沒人再用ETL工具和策略了嗎?BI被時下流行的大資料和資料科學取代了嗎?-當然不是!!
圖:如何根據組織的商業模式構造傳統的BI角色。
圖片來源:Microsoft Wiki
在過去一兩年,商業智慧經歷了相當大的衰退。但是我不認為BI已經失去意義,因為它對主營業務非常重要。像BI分析師、資料架構師、ETL開發員、DW工程師、BIDW管理員這樣的角色只會變得更加重要。相比於資料領域內的“萬事通”,這些角色會更加關注市場驅動的工具和技術。
圖片:2018年流行的商業智慧角色
圖片來源:DepositPhotos
根據最近Wisdom of Crowds®的一項商業智慧市場研究,BI將繼續提供有競爭力的工資並主導市場的某些領域。以下是2018年的一些關鍵數字:
應用BI的3大領域:執行管理、運營和銷售。
BI中的 5個戰略性技能:儀表板、報告、終端使用者自助服務、高階視覺化和資料倉儲。
員工人數不超過100的小公司的BI滲透率最高。
50%的供應商提供永久的本地許可和雲訂閱。
僅有不到15%的受訪機構有首席資料官。
如果你對此有不同的意見,建議閱讀全文:2018年商業智慧報告
附連結:
https://www.forbes.com/sites/louiscolumbus/2018/06/08/the-state-of-business-intelligence-2018/#7a3a35e27828
大資料&資料科學角色
在深入瞭解這個角色之前,讓我們先退回一步,瞭解它是如何開始以及從哪裡開始的。我想透過講故事的方式來展示這個角色,而不是列出傳統的純文字定義——文字定義在網上可以很容易查到。而且,行業內的每一股新浪潮都會催生出令人困惑的詞語、錯誤的套用和過於理想的規定。
變化
“大資料”之所以被創造出來,是為了區別於小資料,因為它不僅僅是由公司的交易系統產生的資料。“大資料”讓我們認識到:與基於事實的理解相比,預測分析可以提供更好的資料趨勢,因此我們在決策時不能僅僅依靠直覺。如果大量資料和資料分析還給不了你滿意的結果,那麼推薦你考慮一下社群開源工具,而不是購買昂貴的許可證。
我通常不會在文章中引用工具的名字,但要描述這場革命,就不得不提到Apache Hadoop。技術堆疊和可擴充套件專案,函數語言程式設計範例(可伸縮、併發和分散式系統),noSQL的崛起,叢集作業排程和資源管理、不斷變化的拖拽式ETL和更好的資料建模技術——Hadoop彙集了以上內容,但它最終強調的是最後一個,程式碼是軟體的最佳抽象。此外,它還引入了一個廣義上的概念,即為將來的資料科學和機器學習的整合提供定製架構。
從開發者的角度來看,這意味著你不必為技術巨頭們工作來開發顛覆性專案。你有一個社群作為支援,並可以在一些新興的協作平臺上展示成果,如Github。
圖:大資料和分析驅動公司的角色分層
從組織的角度來看,軟體工程師(java開發人員)、DW工程師(BI/ETL開發人員、資料架構師)和專案執行經理(dba、Linux SAs)得到了更炫的頭銜,如大資料工程師、Hadoop開發人員、Hadoop架構師、大資料支援工程師,這些新職業開始在就業市場上蓬勃發展。BI的地位下降了,這意味著使用相似工具的業務人員和資料人員的時代結束了。
圖:BI角色逐漸移出了大資料團隊的範圍
圖片來源:DataFlair
這件事情在行業層面上的影響深遠,不僅僅科技公司和網際網路公司,每一家公司都可以透過大資料分析來創造產品和服務。
融合
隨著大資料與資料科學策略相融合的需求不斷增長,科技行業突然出現了分化。由此,領域角色被分為三個部分:軟體工程(具備強大程式設計能力的前&後端工程師,Web開發人員,專案執行經理,中介軟體專家,iOS/Android開發人員);資料工程(強大的資料背景,如ETL開發人員,DWH架構師,BI分析師,Hadoop工程師,dba);還有被視為下一代定量分析師的第三類人員(具有計算和分析能力的人員),這類人專注於持續發展的研究領域:資料科學。
圖:上圖顯示了軟體工程、資料工程和資料科學三個領域的技術和工具
圖片來源:Ryan Swanstrom, Data Science 101
據我所知,這種劃分使一些公司發生了重大轉變。其中小型公司(< 50名員工)最好地利用了這些優勢,如新興初創企業;研究機構以及大型企業(> 1000名員工)如電子商務、社交媒體等也受到很大影響。初創企業可以自由地結合多個角色,並鼓勵交叉學科協同發展,而主流巨頭們可以毫不費力地在不同部門之間扮演不同的角色,進而開拓更多的業務。
不過,受影響最大的其實是那些中型企業(或稱SMBs),他們正努力地和市場巨頭競爭,爭取更多商業利益。各種融資或風投促使這些企業擴大規模(50-300個員工),進而獲得最初的成功。隨後他們陷入了無限招聘、人員冗餘、錯誤決策等問題中。最終在市場壓力下不得不大批裁員、股票損失,甚至早早進入清算。一些精通技術的投資者(我想稱之為守護天使)會提供併購援助,但這個行業也意識到吸收投資會有不利影響。
重疊
與此同時,不僅僅是公司在努力地發展資料角色。在這個時代,越來越多的資料科學愛好者(學術和經驗豐富的人)走出他們的舒適圈,擴充套件他們的技能。各個程度的人(數學家、工程師、博士、分析師、畢業生)都有權利申請21世紀最高薪的工作之一。隨之而來的是一些德高望重的大學教授和專家,他們就什麼是理想的資料科學家發表了許多意見。但這隻會引起偏見,卻無法阻止人們蜂擁湧入資料領域。
給職位加上資料字首有助於和那些相似任務的角色相區別,框定技能需要覆蓋範圍並開發相應的潛力。資料分析師從業務中解脫出來,將目光轉向統計和工程,而資料架構師則以其標誌性的中立態度,專注於釋出模型(不要與ML混淆)、資料庫設計和管理。
圖:雷達圖-用於解釋資料驅動角色的技能重疊
圖片來源:edX
透過培養機器學習相關的規範性分析能力,企業開始圍繞各自的前提收穫更多商業資訊。他們不僅在傳統意義上的分析領域展開競爭,比如改進內部業務決策,還著眼於創造更有價值的產品和服務。企業的絕對需求(或貪婪)是要實現具體的目標:得到比上個季度更好的結果——按比例減少職位的開銷。因此,像資料科學家這樣一個有前途但充滿挑戰性的職位,需要一個跨團隊的核心人物來完成與資料相關的任何事情。這個角色將會承擔常人難以想象的壓力和疲憊。如果一個如此有才華的人只是被用去做分析,他一定會設法為自己尋找更好的機會。KDnuggets上的這篇諷刺的文章支援了我的說法。
附原文:
https://www.kdnuggets.com/2018/04/why-data-scientists-leaving-jobs.html
權衡
現在有人在問,資料科學會是下一個泡沫嗎?我的回答是:不,但“資料科學家”這個頭銜可以被看作泡沫。這是一個教科書式的供求問題——每個人都希望能分到一碗羹,但事實證明只有少數人具備這個能力。這有點讓人困惑——你會如何處理一個正在申請這個職位的應屆畢業生,或者當你的資料科學家準備離職,同時還有一群“自薦者”在敲你的門的時候,你會做什麼。
另一些人覺得,企業需要從網站、api、社交媒體或網際網路等渠道獲取資料,因此資料科學家要掌握程式語言並高效實現需求。他們會很困惑,“為什麼不是所有的資料科學家都擁有強大的程式設計基礎”或者“為什麼在資料科學的喧囂中,軟體工程被忽視了?”企業很快意識到,只有角色重新分配才能解決問題。於是把目光投向了更廣泛的工程師,來給予資料科學家更多支援,並探索不同角色之間的平衡。
軟體工程師似乎在資料科學和機器學習方面頗有造詣,他們儘可能解決難題並豐富了資料工程師的隊伍。而那些從事核心web程式設計和棧驅動的人們則面臨著更大的挑戰:全棧工程師。
一種雙贏的局面是,資料科學家找到了可靠的夥伴,他們會有一種如釋重負的感覺(外界對他們的誇大炒作也會降低),而且在未來還會有一個同等能力的角色來挑戰他們。這種交叉讓那些資料科學“發燒友”們興奮不已,並使得資料工程成為當今最複雜的學科之一。當前的資料工程師補充了其他的所有角色,在每個公司都是一個必備的勤雜工,而且是初創公司的第一批僱員。
圖:資料科學家和資料工程師對比
圖片來源;Karlijn Willems
透過平衡相互獨立的角色,這種博弈獲得了完美的回報。但科技行業意識到,他們無法再一次承受挫折,並隨時準備接受越來越多的人工智慧。
變革
不可避免的是,公司總是會發現其組織結構的缺陷:職位、優先順序和能力——以及初始的資料驅動團隊。企業要更多關注角色區分、分工、避免任務衝突、適當合作等方面。在這樣一個團隊中,可以以角色為基礎設立領導者,一個很好的案例是首席資料科學家和工程主管。
圖:早期對健全資料科學團隊的描述
圖片來源: DataCamp Blog Community
如今,完美的資料科學團隊是一個神話,或者是一個讓人嚮往的話題。公司期望他們的團隊像一群超級英雄的集合(像復仇者那樣)——他們在很多情況下大獲全勝的原因就是指定了一個人來為這些團隊提供背景,這就是首席資料官存在的意義。隨著資料成為一項完整的商業戰略,首席資料官正在成為一個組織中更為關鍵的角色。在《福布斯》的一項調查中,超過50%的首席資料官可能會在2018年直接向執行長報告。他們一定會在塑造企業主動性方面扮演更積極的角色。
當我看到崗位描述中包含“熟練使用英語”或“本地應聘者”時,我感到很失望。語言不應該被視為障礙,而應該被視為增強團隊關係的紐帶。2018年最好的例子就是一個語言本身:Python。創始人(CEO和CDO)必須在他們的團隊中傳播這些資訊,最重要的是人才招募團隊。
圖:Python如何將不同型別角色聚集
圖片來源: ActiveWizards
如今,人力資源協調員、招聘人員、外包獵頭都可以使用充足的資料資源(如Medium、Datacamp)和資料友好平臺(如LinkedIn、Glassdoor)來完善搜尋,以提高招聘質量;因此,甚至這些角色都是資料驅動的。
機器學習&AI驅動角色
也許機器學習最引人注目的方面是它看似無限的適用性。已經有很多領域受到了人工智慧的影響,包括教育、金融等等。機器學習技術已經被應用到醫療領域的關鍵部分,從減少藥物作用差異到醫療掃描分析,機器學習影響著方方面面。
對於許多公司來說,他們的資料(或資料分析平臺)就是他們的產品。在這種情況下,資料分析或機器學習的熱潮會非常猛烈。對於有正式數學、統計學或物理背景的人來說,這可能是一種理想的情況,他們希望繼續走學術道路。
“機器學習工程師通常更關注生產偉大的資料驅動產品,而不是回答公司的運營問題。”
圖:資料科學團隊中新加入的機器學習
圖片來源:Udacity
公司開始積極地尋找機器學習工程師:包括各個年齡層(實習生到科研人員) 有想法的候選人。從LinkedIn、Medium、Github上可以發現,人們對社交媒體這一代的讚賞也比從前更多。
圖:AI公司中多種機器學習角色的比較
圖片來源:Udacity
目前成功實現了智慧機器(比如聊天機器人) 的AI驅動公司已經比其他公司領先一步。軟體、應用&核心這些附加角色是一個明確的跡象——他們對他們開發的產品和服務是認真的。由於沒有任何關於名稱或資歷的概括,他們完全可以在未來即興創作AI頭銜。
周邊角色
有許多角色在日常基礎上補充了資料驅動團隊。無論屬於哪個團隊,他們都是組織中不可或缺的一員。你可能會想為什麼我沒早點提到他們。老實說,我對此持不確定的態度,原因如下:
我對這些領域介紹及其範圍的專業知識有限。
它們不屬於資料驅動角色的主要範疇。
這些領域的多功能性使得它們在不同的團隊中運作。
讓我在“鍵盤俠”到來之前解釋一下。
平面設計師:所有事物都需要的創意頭腦。一套完整的藝術、科學、程式設計、思想和想象力,這些需要無限的能力。他們用他們的聲音和無畏的態度來創造價值,是我個人的最愛。
決策者:一個經常被誤解和忽視的角色。尤其是在特定領域的初創企業中,在聘用博士出身的資料科學家之前,要確保你的決策者懂得決策的藝術。
軟體開發人員和運維人員:大致分為兩類:“業務能力團隊”和“靈敏的運維團隊”。資料架構師和工程師可以協調、學習和實現基於雲(IaaS、PaaS、SaaS)的configs、容器、微服務部署和虛擬化等任務。然而,DataOps(資料操作運營)是一個允許企業內部連續資料流的新平臺。
雲架構師:通常擔任諮詢角色的技術專家(像他們的雲服務一樣按小時收費)。同樣,如果企業的資料工程師熟悉雲概念或認證助理/專業人員,您可以選擇不僱傭他們。
專案和交付經理:一些資料科學和分析公司仍然不得不使用Agile&Scrum方法的舊規範。在他們開始諮詢客戶來協調他們的產品銷售和服務之前,他們需要有經驗的經理來確保PoC(概念驗證)時間表和資源的合理分配。
網路和網路安全工程師:這類人通常被視為內部團隊,但如所有上述提到的,他們將很快成為資料驅動團隊的一個組成部分。2018年,一些威脅促使企業開始關注資料安全的問題。因為大多數公司每天都在透過網路運營,這些角色變得至關重要。
細化想法
當然,在工具方面,這項技術比以往任何時候都易於使用和直觀。例如,在大多數清理、建模、報告和視覺化工具中都有一系列介面卡,這意味著載入資料不再是非常重要的需求。然而,這在某種程度上也鼓勵了無所不在的檢視,因為它可以輕易地實現。但這也是一個不好的預兆,人們在確保基礎資料的準確性上花的時間越來越少了。
科技與產業將在2008-2019年度密切關注:
漸進式網路應用程式(PWAs)——手機和網路應用程式的混合體。
區塊鏈及金融科技——建立元模型,可靠的交易和信用評分。
醫療——醫療影像診斷(計算機視覺及機器學習)。
AR/VR ——體育分析,名片(影像跟蹤),體感遊戲(Hado)。
AI語音助手——智慧聊天機器人。
智慧供應鏈——數字孿生(物聯網感測器)。
5G ——大資料,移動雲端計算,可擴充套件物聯網和網路功能虛擬化(NFV)。
3D列印——預製效率,缺陷檢測,預測ML維護。
暗資料——還未被轉化為可用的格式的資訊
量子計算——將資料處理時間分割成多個部分。
最後,在工作方面,有些職位顯然無法跟上技術的變化,未來跳槽將是困難的。正如許多求職顧問所言,保持職位穩定的方法有兩種:一是成為某一領域的專家,在一家穩定的公司站穩腳跟;二是找到符合技術趨勢的新領域並選擇具有挑戰性的職位。作為一名資料工程師,我採用了一種混合的方法:在職業生涯和個人抱負之間堅持學習原則——實際上我可以在任何技術驅動的行業工作。如果有什麼自我安慰的話,我知道我要為我未來的成功和失敗負責。
“不要讓別人告訴你你成不了才。如果你有夢想,就要捍衛它。當人們做不到一些事情的時候,他們就會對你說你也同樣不能。所以你想要什麼,就去爭取吧。”
原文標題:
The Dynamics of Data Roles & Teams
原文連結:
https://towardsdatascience.com/the-dynamics-of-data-roles-teams-6c450b27e59e