“資料科學家”或許不再性感,但“資料團隊”的產業化才剛開始

大資料文摘發表於2020-07-09


“資料科學家”或許不再性感,但“資料團隊”的產業化才剛開始

大資料文摘出品

作者:魏子敏、夏雅薇、牛婉楊


本文為清華資料科學研究院聯合大資料文摘發起的年度白皮書《頂級資料團隊建設全景報告》系列專訪的第二篇內容。《報告》囊括專家訪談、問卷、網路資料分析,力求為行業內資料團隊的組建和高校資料人才的培養提供指導性意見。前往文末參與填寫問卷,將獲得《報告》完整版~


定下“頂級資料科學團隊”這個研究話題時,我們第一時間想到了領英(LinkedIn)。


2008年,正是在這家公司,DJ Patil建立了全球首個真正意義上的“資料科學團隊”,並開始用“資料科學家”(Data Scientist)這個詞來描述這些Data man們的工作性質。


在這之後,“資料科學家”開始被譽為21世紀最性感的工作,也成為全球技術精英們近年來最理想的職位之一。


儘管已經過去了十多年,但當我們請領英全球資料科學團隊負責人許亞給資料科學團隊下個定義時,她還是表示,這不容易。


“資料科學家”或許不再性感,但“資料團隊”的產業化才剛開始
領英全球資料科學團隊負責人許亞


的確,儘管資料科學在學術領域的概念50多年前就有了,但作為職業,相比業內更多成熟的團隊和路徑,這依然是個相對很新的概念。


不同公司和團隊領導人對於“資料科學團隊”的定義範疇大相徑庭:


  • 從時間維度來看,當年研發出Hadoop、Kafka的人會稱自己是資料科學家,但是現在這些大資料底層技術都變成了偏基礎設施的內容,在狹義概念上,已經不再屬於資料科學團隊的範圍;

  • 隨著這個領域囊括的範圍越來越多樣,資料對於每家公司的重要性也都只增不減,資料科學的“嵌入”性越來越高、邊界也越來越模糊。


儘管如此,談及領英這些年“資料科學團隊”的定位和建設,許亞依然有自己非常清晰的思考。

“對於領英來說,資料科學團隊的整體趨勢更加走向專業化,他們的職責不再是建立資料基礎設施或平臺,而是怎樣去使用資料科學和工程來最大化資料的價值。

這是許亞對資料科學團隊任務的要求。

那麼到底如何讓資料的價值最大化呢?從團隊運作方式、商業影響力設定和社會責任等角度,許亞給出了領英的答案。

“嵌入式工作,中心化管理”,資料科學團隊更加“專業化”、“工程化”

和多數網際網路公司一樣,領英的資料科學團隊規模也在近幾年飛速增長。許亞表示,僅是近兩年來,領英的資料團隊擴張了近一倍,從150人增加到目前的300多人。

許亞提到的資料團隊是指領英中心化的資料科學部門。如果用一句話來概括領英的中心資料科學團隊的運作方式,那就是“嵌入式工作,中心化管理”

和國內不少網際網路公司將資料分析師歸屬於業務BU、向業務主管彙報不同,領英的資料科學團隊成員由許亞的中心部門統籌。雖然在專案工作上,資料科學家們依然會在工位分佈和職能上與業務部門緊密聯絡,但是從職級從屬上,都直接向許亞彙報,不同領域的資料科學家在工作中會有交集,還會一起開會。

其實領英的資料科學團隊的設定也不是一開始就如此,隨著領英資料科學團隊定位的變化,資料科學團隊也從最初的產品組,移到了現在的工程大組。

值得一提的是,目前領英的資料科學和人工智慧團隊都在同一個大組裡,許亞表示,資料團隊和人工智慧/工程團隊是緊密相連的。

這也從一個側面說明,隨著對資料科學團隊的需求逐漸增大,資料團隊的工作會越來越“工程化”。跑的資料會越來越多,對工程團隊的需求也會越來越大,需要對工程團隊越來越多的要求和技術定位。

近年來,各大公司越來越意識到資料的重要性,已有的資料科學涉入領域在進一步擴張。資料團隊之前最常被用到的部門是市場和產品,但是基於領英本身的資料基因,近幾年的一些產品也對之前沒有用到資料的地方做了資料驅動的嘗試。

例如,與架構工程部門合作的資料團隊會去衡量工程架構的建設是否有效率:每年跑大資料的硬體裝置花費很高,怎麼樣在時間上做規劃,讓硬體/GPU等更有效的發揮價值。

在人員構成上,和十年前相比,領英的資料團隊也更加專業化了,底層架構人員也從資料科學團隊分離了出來。

目前領英的資料科學團隊也根據員工不同的專業領域設立了三個工作方向:

  • 工程專家:可以很有效的建立起資料管道(data pipeline) 和資料流 (data flow);
  • 演算法專家:在預測、演算法領域的技術咖;
  • 業務專家:有很強的業務屬性,將資料見解和公司戰略結合起來;

由於工作側重不同,在管理的過程中也會有意的區分這三類資料科學家,並且保持各類員工的競爭力。

許亞提到,她的團隊內部更多是自下而上的工作文化。她不會給團隊指派任務,因為每個組會自覺的告訴許亞他們想達到什麼樣的目標。對於一些大的專案,一般需要跨部門合作,各部門的領導達成共識,分配資源來一起實現這個目標,是自上而下和自下而上的結合。

三大KPI指標,量化資料團隊工作

相對複雜的構成和與業務團隊的緊密性,給資料團隊設定商業影響力和發展路線不是一件容易的事。

許亞表示,兩年前她接手領英資料團隊後做的第一件事就是擬定了團隊成功的三要素。雖然資料團隊的價值有時候很難量化,但是有三個指標可以作為探討的基礎。在資料團隊內部不同組可能會有不同的側重,但對大部分組來說這三個因素都很重要。

資料易得性和工作效率 

資料易得性,指的是當外界需要資料的時候,獲得這些資料的難易程度;工作效率,指的是一個人的工作是否可以提升整個團隊的工作效率。

許亞表示,資料科學家之前被人詬病過於追求新鮮感,喜歡挑戰高難度問題,但做完MVP (Minimum Viable Product) 後沒有維護迭代的習慣,永遠都在追逐下一個新難題。資料團隊擁有許多資料資源,比如原始資料,指標資料,資料模型,資料視覺化。

當外界對這些資源有需要的時候,如何能夠保證這些需求能夠隨時被滿足?軟體開發有一系列衡量資料獲取難易程度的指標,比如SLA(Service-Level Agreement)的達標率就是一個很好的量化指標。

有些資料科學家做了一個很不錯的分析,但是不太關心怎麼把這個分析過程自動化,所以每次有人提需求的時候就需要有人再手動跑一次模型,其實都是重複勞動,不同的人在做相同的重複勞動。如果這個分析實現了自動化,大家都可以享用,其他人就不需要花太多時間精力在這個模型上,整個資料科學團隊的集體工作效率都提高了。

以前許亞的團隊也缺少這種分析自動化產品化的意識,所以她把這個設定為成功三要素之一,強調這種意識的重要性。

戰略化思維

戰略化思維,指的是資料分析結果對公司重要戰略性決策是否有指導作用。

許亞的資料團隊和公司很多高層會打交道,因為他們團隊有一個很重要的職責就是透過資料來確保公司重要決策的大方向是準確的。比如他們需要了解使用者在疫情期間是如何使用領英服務,如何透過領英的產品獲取價值的。

許亞認為在疫情後,使用者的行為多少會發生一些不可逆轉的改變,資料可以幫助團隊更好地去學習使用者行為變化,從而在戰略上指引公司對哪些領域進行重點投資。不管是產品開發還是市場戰略的決定,都需要依靠資料。

直接商業影響力

直接商業影響力 (Direct Business Impact),指的是工作成果對公司商業目標的直接影響力。

每個部門的工作開展是和公司要實現的大目標息息相關的,領英有公司層面的四個核心指標,資料部門在計劃工作的時候,需要考慮如何對公司的商業目標產生積極影響。

AB Test:用資料來證明一切

我們都知道,企業在做產品/功能測試時一般都會用到 A/B test ,即分為兩組使用者,一組對照組,一組實驗組。對照組採用已有的產品或功能,實驗組採用新功能。要做的是找到他們的不同反應,並以此確定哪個版本更好。

A/B test 能對大範圍的事情進行測試,例如亞馬遜對個性化推薦進行 A/B test 後,發現個推能顯著提升收益;谷歌在對搜尋廣告進行排名時也用到了A/B test。

那麼對於領英來說,A/B Test 在領英的產品設計中又扮演著什麼角色呢?如何影響產品決策呢?

“資料科學家”或許不再性感,但“資料團隊”的產業化才剛開始

許亞和Ron Kohavi、Diane Tang共同寫的一本書關於A/B Test 的書籍《Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing》,在今年4月出版了,書裡有很多關於A/B Test的例子。


可以這樣說,基本上我們在領英網站上能感知到的更新,領英團隊都會做A/B Test,有些是前端的改變,有些是後端系統的調整。當你開啟領英APP,從搜尋欄,搜尋引擎演算法,底部導航,到頁面文字大小,這些都是經過A/B Test的。

領英的產品文化以使用者為主導,領英自己不會去假設使用者喜好,一切都透過資料來說話,而不是靠誰的直覺。除了看得到的東西,後端使用者看不到的,領英也會進行A/B Test。比如開啟APP要載入內容,需要從後端系統裡獲取資料,每次獲取20條資料還是100條資料,這個決策就涉及到平衡與取捨,獲取資料越多,頁面載入時間越長;獲取資料越少,使用者瀏覽的時候就需要頻繁重新整理。所以到底一次獲取多少資料,領英還是透過A/B Test來決定。

還有一個簡單的例子,當領英對一個資料中心的開關做決定時也依靠A/B Test,比如一個使用者發起資料請求,這個請求該傳送到哪個資料中心來處理呢?這種情況下使用者到資料中心的距離就是一個很重要的考慮因素,最終領英會透過做A/B Test來選擇最最佳化的基礎設施方案。

雖然資料團隊是A/B Test方面的專家,在這方面更有經驗,但因為領英有非常完備的A/B Test平臺,可以解決大部分實驗需求,包括實驗設計、實施和分析,所以資料團隊不需要介入到每個A/B Test。

這對推廣實驗文化和資料文化很有幫助,因為大家都可以去做實驗,享受資料和實驗帶來的好處。領英內部每天大概有100個新實驗在進行,資料團隊無法關注每個實驗,但是會集中關注一些重要的實驗,深入參與到研究和分析工作中。

在領英以資料為主導的文化浸染下,長遠來看所有人都受益於這樣科學的決策機制。也因為有A/B Test的文化,所以可以跳過爭論,直接做個A/B Test就見分曉了。整個過程簡單公正,方案落選的組也可以透過這個機會學習到一些關於使用者的新知識。

A/B Test提倡數學引導的創新,這種創新不取決於誰的職位更高,因此任何團隊都可以放心大膽的去做測試來發掘新點子。

領英作為一個社交平臺的社會責任:給每個人公平的機會

在許亞看來,維護公平是一個很有挑戰的課題,因為你很難明確定義公平。

“當我們在說公平的時候,我們在說公平的機會?公平的結果?還是公平的待遇?我之前看過一個有意思的問題,給三個不同高矮的人提供凳子,在公平原則下,你該給他們提供同樣高度的凳子?還是提供不同高度的凳子讓他們坐上去之後一樣高呢?我很難說這個問題有一個絕對正確的答案。”

領英對公平的定義是,擁有同等才能的兩個人,應該獲得同等的職業機會。而不受到種族或者自身人脈的影響。過去兩年時間領英做了很多努力來解決公平問題,取得了不錯的成果。

首先,領英很重視可量化、可測量的指標,因為如果一個問題沒有被資料抓取到,就很難注意到。

例如,每次領英發布新產品,都需要透過量化的指標來測量這個新產品對使用者帶來影響是否公平。一開始領英的測量指標比較粗線條,他們會看這個產品平均下來對使用者是否有積極影響,但如果細看資料,有可能這個產品只對一部分人有益,但會損害另一部分人的利益。因此,後來領英採用了一個指數來衡量是否在一個群體內無意間引入了不公平因素,也就是對每個新產品,領英想知道其帶來的提升是否是公平的。

其次,領英關注現有平臺上是否存在公平問題的盲點。

例如一個以男性為主體的資料集,訓練出來的模型就更傾向於男性,這是一個隱蔽的不公平點。很多獵頭和HR用領英產品來招人,如果演算法推薦的候選人都是男性,女性就失去了公平的競爭機會。

大概一年前左右領英推出了一個代表性指數來衡量推薦結果對整體資料集的代表性。比如所有可能候選人的男女比例是1:1,那領英給獵頭推送的前100位候選人的男女比例也應該是1:1。有了這些量化指標,領英可以更好地規範和規避不公平的舉措。

許亞還給我們舉了一個例子。之前領英有一個內推功能,當某個人想申請Google的工作,會收到提示說我的一位好友在Google工作,我可以找他要個內推。

上線初期,領英內部對這個新功能很滿意,因為可以幫助那些有廣泛人脈資源的人更快找到工作,後來領英意識到這個功能會讓那些沒有人脈資源的人更難找到工作,所以就關閉了這個功能。取而代之的是領英推出了一個新工作快速提示功能,一個新職位剛釋出出來,領英會立刻給所有對此類職位感興趣的使用者推送提示。這個功能不僅能幫助所有使用者更快找到工作,對那些關係少的人尤其有幫助,因為他們的訊息相對更閉塞一點,所以這個功能能讓更多的人受益。

最近領英也開源了這套技術,希望能助力其他公司去構建一個更公平的社會環境。

隨著近年來資料洩漏事件頻頻爆發,資料隱私和安全問題被推上了風口浪尖。許亞也跟大資料文摘聊了聊領英在保護使用者的資料隱私方面都做了什麼。

領英全球有超過6.9億使用者和5000萬家企業,領英的願景是為全球勞動力市場中的每一位創造經濟機會,透過將所有在領英平臺發生的行為資料視覺化,進而打造全球“經濟圖譜”。因此使用者資料對領英至關重要,如果沒有使用者的信任,領英就沒有辦法去實現他們的願景和使命。

“資料科學家”或許不再性感,但“資料團隊”的產業化才剛開始

所以在GDPR這些開始之前,領英在保護使用者隱私上已經有了很多投資。許亞提到,除了實現規定裡的要求,領英也用一些很前沿的技術去確保不洩露隱私,比如現在認為是資料隱私保護的“Gold Standard”——差分隱私(Differential Privacy)。

大家經常說到保護隱私,比如說把一些個人資訊隱去了,其他人看不見,我就沒有隱私洩露了,其實不是這樣的。

差分隱私只是一種保證假設你的資訊在一堆資料裡面,如果把這些資訊刪掉,再執行同樣的一些演算法,從資料當中得到的兩個的結果都是一樣的。相當於你的資料在或者不在這個資料庫裡面,最後對於得到的資訊沒有影響。這樣使用者就不需要擔心他們的資料隱私被洩露。

領英三年前就開始針對資料隱私問題進行一些重要的研究,同時也有一些比較成功的應用,例如最近一個針對廣告商的產品,客戶想要用領英的API去獲得一些資訊,比如使用者互動量前十的文章,像這樣一些集合的資訊,領英也用差分隱私去確保使用者的資訊不洩露。

最後,從整個公司文化上面來說,許亞透露,除了去實現資料保護條例的一些要求,領英也用到了一些很前端的技術,來確保使用者的隱私不被洩露。另外,領英也十分重視在資料分享方面的問題,並表示會對此加強技術防護。

採訪過程中,許亞多次提到領英的社會責任。今年,一場突如其來的疫情,全球的勞動力市場都受到了不同程度的影響,不論是就業還是工作方式都迎來了一種新常態。領英利用資料優勢,實時展現勞動力市場的趨勢變化,幫助個人更好地應對當下的不確定性。在分析資料時,領英還發現不同分組內的使用者受到的影響程度不一樣,比如剛入職場的新人會受到更大的衝擊,疫情對女性的負面影響可能大於男性。

透過資料觀察到這些問題後,領英資料科學團隊和業務部門迅速溝通,快速響應,針對各個市場及時提供了一系列有針對性的服務來幫助這些人,讓每個人都能在自己能力範圍內獲得平等的工作機會。

“這是領英作為一個職場社交平臺的社會責任。”


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2703375/,如需轉載,請註明出處,否則將追究法律責任。

相關文章