Jeremy Stanley 是日用雜貨當日送達初創企業 Instacart 主管資料科學的副總裁,Daniel Tunkelang 是前 LinkedIn 的資料主管。作為在資料科學領域身經百戰的老將,他們在這篇文章中為那些想打造一支屬於自己的資料科學團隊的公司 CEO 們提供了一些建議,主要涵蓋了這幾個問題:資料科學為什麼對很多創業公司如此重要?公司應該在什麼時候在資料科學方面進行投入?應該將資料科學團隊放在公司裡的什麼位置上?如何營造一個尊重資料科學的文化氛圍?

 

你可能很難相信,“資料科學家” 在 2008年 才開始成為一個真正意義上的職業頭銜。當時,為了迎合市場對資料分析、工程學和產品這種跨學科技能人才日益增長的需求,Facebook 的 Jeff Hammerbacher 和 LinkedIn 的 DJ Patil 率先提出了 “資料科學家” 這個概念。今天,市場上對資料科學家的需求極其旺盛,越來越多的公司都想更好地瞭解如何打造一支屬於自己的資料科學家團隊。

作為在資料科學領域身經百戰的過來人,Jeremy Stanley 和 Daniel Tunkelang 已經見識了不同行業的不同公司在不同發展階段在打造資料科學家團隊方面的成功和失敗案例。他們發現,這裡面的挑戰不僅在於如何招聘頂尖的資料科學家,還包括如何最大限度地發揮他們的價值,以及如何在日趨激烈的人才競爭中留住他們。

在這篇文章中,我們為那些想打造一支屬於自己的資料科學團隊的公司創始人提供了一些建議。資料科學為什麼對很多創業公司如此重要?公司應該在什麼時候在這方面進行投入?應該將資料科學團隊放在公司什麼位置上?如何營造一個尊重資料科學的文化氛圍?

第一個問題:你想實現什麼樣的目的?

資料科學主要有兩個方面的功能:一是改善使用者所使用的產品;二是為公司決策提供支援,改善決策質量。

  • 資料驅動型產品利用資料科學和工程學來持續改進產品效能,例如,提供更好的搜尋結果、更個性化的推薦等等。
  • 資料決策科學利用資料來分析業務指標,例如增長資料、使用者黏性資料、盈利點和使用者反饋資料等,從而為制定公司戰略和關鍵性的業務決策服務。

兩者的區別可能看起來非常顯而易見,不過在打造和擴充自己的資料科學團隊的過程中,記住這兩者之間的區別非常重要。接下來我們就詳細探討這兩點。

利用資料科學打造更好的產品

資料產品可以利用資料科學去提升產品的效能表現。他們依靠的是這樣一個良性迴圈:產品蒐集使用者使用資料,這些資料成為演算法素材後再反過來為使用者提供更好的產品使用體驗。

那麼在蒐集到資料之前是怎樣的呢?你的產品的第一個版本必須解決資料科學稱之為 “冷啟動” 的問題,也就是說產品的初始版本必須提供足夠好的體驗才能夠啟動 “資料蒐集—資料驅動產品提升” 這個良性迴圈。要想做到這一點,這就需要依靠產品經理和工程師制定足夠好的解決方案。

例如,當使用者開啟 Instacart 應用的時候,這款應用會在 “再次購買” 欄向自動給使用者展示他們最近購買過的日用雜貨品。這是一個使用者很喜歡的功能,不過它幾乎用不到資料科學或是需要足夠多的資料來支撐。只有當我們為使用者推薦一些他們之前沒有購買過的商品的時候,這時資料科學才能發揮它真正的作用。

例如,要向 A 使用者推薦他之前從未購買過的商品,這就需要資料科學家對所有使用者的購買行為進行分析,從而確定和 A 使用者比較類似的 B 使用者,然後再根據 B 使用者過去的購買行為來為 A 使用者推薦商品。這就是資料科學利用資料創造價值、從而使使用者更容易地發現他們自己可能沒發現的好產品的一個案例。

為了改善產品,資料科學家必須和工程師進行持續而緊密地合作。此外,你還需要決定是產品科學家自己去落實產品改進方案還是與工程師一起去落實。這兩種方法都可以,不過最好能對其進行規定,讓它成為公司員工人人皆知的一個流程與規範。

使用資料科學為做出更好的決策提供支援

資料決策科學利用資料分析與視覺化來為公司業務和產品決策提供支援。公司裡可能誰都有可能是決策者,例如產品經理對如何制定路線圖的優先順序進行決策,公司高管對公司層面的戰略性問題進行決策。決策科學問題涉及的範圍很廣,不過它們有一些共同的特點。

第一,它們是公司之前尚不需要解決的一些新問題;

第二,它們通常是主觀性的問題,需要資料科學家在有未知變數和缺少上下文的情況下處理的問題;

第三,它們通常是非常複雜的問題,問題的不同部分之間缺少明確的因果關係。與此同時,決策科學問題又是可以衡量且影響非常重大的,做出決策後能對業務產生具體而重大的影響。

上面說得聽起來很像資料分析,事實上,資料分析和資料決策科學之間的差別並不是一直都非常清楚的。不管怎樣,決策科學要做的事遠不限於僅僅是製作報告和圖表。資料科學家不應該做那些利用市場上現有的商業智慧工具就能完成的工作。

在 LinkedIn,公司管理團隊就曾利用資料決策科學做出一個非常關鍵的商業決策:有關在搜尋結果中其他會員資料的可見性。在之前,只有付費使用者才能檢視自己三度人脈網路裡成員的全部資料。這種可見性規則非常複雜,LinkedIn 想對其進行簡化,但同時又不想影響自己的營收。其中的風險還是很大的。

最後提議的可見模型是對非付費使用者每月的使用進行限制。LinkedIn 的決策科學家利用使用者歷史行為來預測這個改變對營收和使用者黏性可能會造成的影響。這個分析必須在一個模型上推斷過去的行為從而在另一個完全不同的模型上預測使用者未來的行為。結果證明,新的可見性規則不僅對公司業務產生了積極影響,同時也讓數百萬使用者更加滿意我們的產品,它還幫我們卸下了之前產品開發中規則過於複雜的沉重負擔。有些使用者抱怨新的可見性規則方面對檢視資料上做出的限制,然而這部分人正是 LinkedIn 認為應該付費使用自己產品的使用者。在資料決策科學的幫助下,這個專案非常成功。

並不是所有的決策都需要依靠資料決策科學。有些決策太無關緊要,所以不值當在資料決策科學上進行大量投入。還有一些決策可能非常重要,但缺乏需要的資料對其進行有意義地分析。在這種情況下,就需要依靠直覺和實驗。

資料決策科學和資料產品需要的技能有的是類似的,很少資料科學家能在這兩個方面都非常擅長。資料決策科學依靠的是業務和產品感覺、系統思維能力和優秀的溝通能力。資料產品需要的是機器學習知識和產品級別的工程技能。如果你的資料科學團隊規模還很小,你可能需要找一個在這兩方面都比較擅長的超級英雄。當團隊規模慢慢變大後,你最好能招在這兩個方面分別比較擅長的人才。

1461764106-1672-iatSn0ltZaSKribGzqw1Ol5RGmSw

你是否應該在資料科學上進行投入?

資料科學並不適合所有公司。只有當它對公司成功與否至關重要時,你才需要在資料科學上進行投入。在你決定是否投入打造一支資料科學團隊之前,建議先問自己下面這四個問題:

(1)你決心利用資料科學來為制定戰略決策服務或是打造資料驅動型的產品嗎?

如果你還不確定是否會利用資料科學為制定戰略決策服務或是打造資料驅動型的產品的話,那麼建議暫時不要招聘資料科學家。

只有當你決心打造一個資料驅動型的決策文化時,資料科學才能更好地為制定戰略決策服務。你可能並不是一開始就需要它,不過要招到合適的資料科學家是需要一定的時間的,讓資料科學家瞭解你的資料和業務同樣是需要一定的時間的。在你打算利用資料科學驅動決策之前,這些工作都需要提前做。

資料驅動型產品可以通過利用資料持續改善和優化產品,從而創造更多的價值並取悅更多的使用者。如果你這些在你的產品路線圖上,那麼你應該儘早招資料科學家進來。資料科學家可以在產品設計、資料蒐集和系統架構等方面做出關鍵性決策,這對於打造一款真正優秀的產品非常重要。

(2)你能夠蒐集到你需要的資料並且讓資料驅動行動嗎?

公司的創始工程師可以依靠很少產品和設計指導的情況下就能開發一個最小可行性產品。資料科學則需要大量的資料。推薦系統依靠監測你的產品來追蹤使用者行為,優化業務決策則需要依靠對關鍵性的活動和輸出進行精密測量。

光蒐集資料是遠遠不夠的,只有資料能夠真正驅動行動的時候,資料科學的價值才能顯現。資料應該去推動產品的迭代完善,同時能夠驅動公司的關鍵績效指標(KPI)。

為了真正落實這一理念,這就需要在全公司範圍內明確每款產品需要蒐集什麼資料,同時制定清晰的蒐集和維護資料的架構和流程。這需要資料科學家、工程師和產品經理的協同配合,而所有這些又都需要管理層的支援和承諾。同樣的道理,資料驅動型決策也需要公司 CEO 自上而下的支援和決心,確保全公司都能決心依靠資料來做決策,而不是依靠依靠職位高的人的意見進行決策。

(3)你搜集的資料裡有足夠多有用的訊號來幫你獲取有意義的見解嗎?

很多人將大量資料和資料科學等同起來,然而數量並不是一切。真正的資料科學是從噪音中的資料裡提取有用的資料訊號。

有用的訊號不光取決於資料量的大小,還取決與訊號和噪音的比例。舉個例子,一個廣告產可能會從數十億的廣告曝光中搜集資料,然而只有少數使用者與廣告互動的情況下才是真正有用的資料訊號。因此,通常情況下大量的資料只能產生少量有用的訊號。

(4)你是否需要讓資料科學成為你的核心競爭力,或是否可以將資料科學工作外包出去?

要打造一支資料科學團隊是非常困難而且是需要大量資金支援的。如果通過外包就能完全滿足你在資料科學方面的需求的話,那麼不妨將這項工作外包出去。有人建議可以明智地利用外部的顧問來做這項工作,不過還有一個更好的建議,那就是通過利用市場上現有的產品和解決方案來獲取資料、建立模型、實現自動化操作並給出關鍵的分析報告。它可能不是專門為你的需求量身定製的完美解決方案,不過為了能快速推進業務、同時能夠讓核心團隊成員專注在能創造最多價值的工作上,在這方面做一點點妥協也是值得的。

你什麼時候需要將資料科學作為自己的核心競爭力呢?如果資料科學正在解決對你能否成功起著至關重要作用的問題的話,這時你就不能將這項工作外包出去了。市場上現有的解決方案很多時候也非常死板不靈活。如果你的公司正在嘗試利用一種獨特的方法解決一個新問題的話(例如蒐集全新型別的資料或是以全新的方法使用資料),這時市場上現有的解決方案可能就無法滿足你的需求了。

1461764106-6728-WPbKyNiaVVwQdiaC2PhY8agIzZcQ (Jeremy Stanley 在位於舊金山的 Instacart 總部)

那麼你什麼時候應該開始組建資料科學團隊呢?

資料科學,首先需要足夠多的資料才能開展下面的工作,而大部分公司一開始並沒有足夠多的資料的。

在招聘資料科學主管或組建資料科學團隊之前,要確保你有工作可以讓他們可做。同時,你需要儘早開始蒐集一些關鍵資料,一旦你準備好之後,資料科學團隊就可以立刻施展身手、發揮作用。

如果你還沒有資料,這時誰負責決定該蒐集什麼樣的資料、何時蒐集資料呢?這個決策者並不一定需要是資料科學家,但最好是能瞭解不同資料集的潛力且能夠做資料投資策略決策的人。如果你已經知道自己將會花很多的時間和金錢在資料的獲取上,這時你或許就應該做一些少量的投入去招聘你的第一個資料科學家了。

可能你現在立刻就需要資料,因為你的業務就是提供資料產品。然而你的最小可行性產品可能並不是資料驅動型產品。這時你只能將賭注壓在你的直覺上,看你的直覺是否能為市場所驗證。在這種情況下,過早地在資料獲取和資料科學上進行投入只會浪費你寶貴的資金和時間,這些時間和金錢應該用在將最小可行性產品推向市場上。一旦你有可供資料科學家處理使用的資料後,同時也決心投入大量的產品、工程和業務資源來支援你的資料科學工作的話,這時,你就應該快速組建一支資料科學團隊了。

要在公司在灌輸一種重視資料的文化,越早越好。從使用者獲取到產品釋出再到收購,所有這些重要決策都應該基於資料而非大家的意見。將資料科學引入公司的另一個好處就是它能夠讓大家認識到資料是公司的一級資產。

一次成功的產品釋出應該是能否幫你搜集足夠多的資料供學習的。如果讓我們給出一個最重要的建議的話,那就是:在你驗證了你的最小可行化產品(MVP)之後,這時你就應該考慮在資料科學上進行投入了。

你應該將資料科學團隊放在公司裡的什麼位置上?

你將資料科學團隊放在公司裡的什麼位置上,這對團隊以及整個公司的業務都會產生很大的營銷。目前有三種方法:一個完全獨立的資料科學團隊,嵌入型團隊,完全整合型的團隊。每種方法其實都各有利弊。

(1)讓資料科學團隊完全獨立

在資料科學團隊完全獨立情況下,這個團隊和其它諸如工程團隊是並列的。資料科學團隊的負責人可能會想產品 / 工程副總裁、甚至是 CEO 直接彙報工作。

這種獨立模式的優勢的它有充分的自主權。這種資料科學團隊可以自主決定解決它認為最有價值的那些問題。作為一個完全獨立的團隊存在還有另外一個象徵性的優勢,就是它彰顯了公司是將資料視為一級資產的,這有助於公司吸引更多頂尖的資料科學人才加入。

這種獨立的模式對於那些決策科學團隊尤其有幫助。儘管基於資料決策的科學家是和產品團隊緊密合作的,不過他們獨立的身份可以幫助他們更好地做出艱難地決策,例如可以告訴產品經理他們的產品指標還不夠好,所以暫時還不能釋出。

這種作為一支獨立團隊存在的模式的弊端就是它可能會面臨被邊緣化的風險。隨著公司裡產品團隊規模慢慢擴大,他們經常傾向於一切都能自給自足。雖然他們可以從與資料科學家的合作中受益,但產品團隊還是不希望依靠他們自己無法徹底掌控的資源。他們想一切都能依靠自己,為此,產品團隊甚至會以招聘 “研究工程師” 的名義招聘自己的資料科學家,這樣他們什麼就可以掌控了。如果產品團隊拒絕和獨立的資料科學團隊合作的話,那麼資料科學團隊就面臨被邊緣化的風險,無法發揮應有作用。這時很多優秀的資料科學家也將離你而去。

LinkedIn 最初的資料科學團隊也是一個獨立的團隊,自主性讓這個團隊在 LinkedIn 的很多產品上都做出過關鍵性的貢獻,從提升 “你可能認識的人” 的推薦質量到有效監測虛假賬號等等。然而隨著 LinkedIn 規模日益壯大,作為獨立團隊的資料科學團隊與產品團隊的有效協作變得越來越難,尤其是當產品團隊後來自己招聘了具有和資料科學團隊類似技能的工程師後更是如此。最終根據實際需要,LinkedIn 決定不再將資料科學團隊作為一個獨立的團隊。

(2)讓資料科學團隊作為一個嵌入型團隊

在嵌入型模式下,資料科學團隊將人招進來後,會將這些人派遣到公司不同部門和專案中去。這時雖然還有一個資料科學主管,但他 / 她充當的主要是招聘經理和指導員的角色。

作為一種嵌入型團隊,為了確保團隊成員效用,它放棄了自主權。最好的情形是,資料科學家分別加入最需要他們技能的產品團隊中,幫助解決公司記憶體在的一系列問題。

這種嵌入型的團隊模式當然也是有自己的弊端的。並不是所有資料科學家都願意放棄自主權(事實上很多都不願意放棄)。資料科學家的職位描述裡非常看重創意和首創精神,然而作為一個嵌入角色,通常要求他們完全服從被嵌入團隊的主管的領導。

還有就是,作為嵌入團隊成員,這會讓資料科學家感覺自己是個 “二流公民”,被嵌入團隊的領導會認為自己不應該對這些安插到自己團隊中的資料科學家的職業發展負責,而資料科學團隊主管也會認為這些人不直接歸自己管理。我們發現很多公司採用的都是這種方式,其實只有當你的資料科學團隊規模比較大時才適合採用這種方法。

(3)完全整合型

在完全整合型的模式裡,已經沒有單獨的資料科學團隊了。事實上,這時是由產品團隊自己去招聘和管理自己需要的資料科學家。

完全整合型有利於公司內部合作。讓資料科學家成為產品團隊裡的 “一流人員” 解決了獨立團隊和嵌入型團隊的一些弊端。這時,資料科學家、軟體工程師、設計師和產品經理都圍繞共同的產品目前通力協作,讓大家更有團隊意識,有效避免團隊內部出現縫隙。

然而完全整合型模式的弊端是它稀釋了資料科學家的身份。每一個資料科學家都只能與所在的產品團隊相關聯,而沒有一個集中式的資料科學團隊。此外,這種模式沒有嵌入型團隊模式靈活,因為在完全整合型團隊模式下,你更難根據每個資料科學家的興趣和技能對他們進行靈活調動。最後,完全整合型的團隊模式也給資料科學家的職業發展帶來了挑戰,因為每個資料科學家所在的團隊的領導可能並不能客觀地評估他們的價值或是獎勵他們取得的成績。

在 Instacart,資料科學家就是完全被整合進產品團隊的。每一個產品團隊都有自己的工程師、資料科學家、設計師和產品經理,工程師和資料科學家都向技術主管彙報工作,而技術主管自己可能並不是工程師或資料科學家。這個組織結構保證了工程師和資料科學家能夠緊密合作,他們可能做任何有助於實現所在團隊目標的工作。而作為資料科學副總裁,Jeremy 主要為資料科學家和他們的團隊領導提供指導。

上面介紹的三種模式各有利弊,你必須確定哪種方法適合自己的公司情況,並且做好根據實際需要實時調整的準備。有時候最好的方法不是一個單一的模式,而是混合模式。

1461764107-5912-csh3FZfFWJWrIicNCxpMQiajMZkg
(圖中是 Daniel Tunkelang)

如何打造一個尊重和重視資料科學的公司文化

隨時公司規模的不斷壯大,你可能需要招聘越來越多的資料科學家。這裡順帶推薦 Jeremy 的另一篇不錯的文章:《怎樣才能持續聘到優秀的資料人才?》。如果你能儘早在公司內部打造一個尊重和重視資料科學的文化,這將為公司後續發展帶來諸多益處。

很多公司聲稱自己是資料驅動的公司,他們蒐集很多資料,在資料工程上也投入了很多錢,但最後還是功虧一簣。

行動勝於雄辯,只有在一個真正基於資料做決策的公司裡,資料科學才能真正發揮價值。

你需要在公司內部建立這樣的原則和可信度:即使是有悖於常識或是可能會造成公司內部的權利劇變,你依然會基於資料進行決策。只有這樣,才能真正在公司裡形成尊重資料科學的文化並讓資料科學發揮最大的價值。

和其他人一樣,資料科學家也希望自己的工作被認可。只要做到尊重和重視資料科學,這就會形成一種良性的反饋迴圈,資料科學家將會更有動力攻克一些艱難的重大問題,同時確保他們的解決方案是可以衡量的。

承認和認可資料科學家的貢獻有時是非常困難的,尤其當他們被整合到其他團隊中時更是如此,這就需要你的資料科學主管非常優秀而且有影響力,同時公司高層管理人員應該定期去了解和認識到資料科學家對公司業務做出的貢獻。

如果資料科學家不和產品經理、工程師和設計師緊密合作的話,他們是無法開發出卓越的產品的。如果主管領導不重視和欣賞他們的見解的話,資料科學家也將無法對產品產施展影響。

在 Jeremy 剛開始加入 Saithru 擔任資料主管的時候,公司內的整個工程師團隊對資料科學是持一個非常中立的看法的。為了讓大家重視資料科學,在前兩個月,他將自己 30%的時間都用在了給工程師團隊設計和教授一門有關統計學習的課程。在這門課程上,他將的所有例子使用的都是 Sailthru 的資料,給大家講述打造資料驅動產品的各種一處。這門課程很快改變了工程師團隊對資料科學的看法。最後證明,Jeremy 為了讓大家認識到資料科學的重要性而花的大量時間是非常值得的。

隨著時間的推移,你打造的資料科學團隊的成員將有不同的技能組合、不同的背景和世界觀,這時他們也將發揮越來越大的影響。最後,為了讓資料科學團隊能更高效地工作,資料科學家必須要被團隊成員、使用者和公司決策者所信任。在組建團隊的過程中,要招聘那些真正認同公司價值觀的人,因為他們日後將給公司造成的影響是非常巨大的,或好或壞,他們做的決策可能會塑造公司的未來。

編譯|達達

via:36氪