在小公司如何做一名成功的資料科學家?

大資料文摘發表於2019-02-15

在小公司如何做一名成功的資料科學家?

大數文摘出品

來源:medium

編譯:王媛媛、劉思佳

小公司需要資料科學家麼?

可能只有長期混跡資料圈的老司機才有資格回答這個問題

本文作者Randy Au,已經在15-150人規模的公司工作了近12年,被冠於“資料分析師、工程師、偶爾還有科學家”的各種頭銜。

作者是社會科學出身,有一些自然語言處理,應用數學和工商管理經驗。總而言之,什麼都會一點。

以下是他關於此問題的看法:

成為第一個“資料全能選手”

在小公司如何做一名成功的資料科學家?

小公司不需要資料科學家,但他們需要一個“資料全能選手”。他們可能稱這項工作為“資料科學家/工程師/分析師/忍者”,諸如此類。

一家20-60人規模的公司,有足夠的客戶,豐富的資料和專業化的崗位,只需要招一個能夠使用資料來提供有用的業務洞察力的人。

職位的頭銜不重要,但職位描述往往是各種各樣的混合:

  • 理解我們擁有的資料

  • 幫助構建我們的資料系統

  • 幫助我們進行資料驅動/執行實驗

  • 發展業務

  • 可能與任何事物相關或不相關的教育/認證

通常情況下他們並不完全瞭解需要怎樣的人才。只有一種普遍意義上的“我們有資料,看起來很有用,但是缺少轉化為價值的技能。”

實際上,在這個職位上的人需要同時做兩件大事:

  • 今天-幫助公司取得成功

  • 明天-打造資料驅動型公司

今天-幫助公司取得成功

在小公司如何做一名成功的資料科學家?

初創公司充滿了不確定性。他們不確定客戶是誰,生產系統可能很困難,不知道客戶對產品做了什麼,不知道如何使用擁有的資料做出決策,不知道擁有的資料是否有用。

對問題的巧妙回答可以帶來更明智的決策,並希望每個人都夢想成為神話般的曲棍球棒。難題是大多數問題都不適宜用花哨的方法。有用的通常是老辦法和基於定性方法而不是定量。

在最佳化現有流程時,大多數DS方法都是最強大的,它們可以在獲取客戶,轉化客戶,客戶粘度和客戶支出等方面實現5%,10%甚至25%的增長。A / B測試,推薦系統,ML分類器,所有這些都有助於最佳化。收益是真實的,可量化的,並且可能是顯著的,但早期可能會更重要的事要做。

早期最大的影響往往是業務洞察。洞察力從根本上改變了公司做的事情。它們來自很常見的事情,例如研究使用者偏好/行為,為銷售人員揭示新的營銷概念,或幫助產品團隊意識到Twitter上最受憎恨的功能實際上被90%的付費客戶使用。

我對“幫助公司”角色的看法是:“資料全能選手”是一種力量倍增器 。企業內部的人有問題,工作就是幫助他們解決問題。

成為第一個“資料全能選手”=成為“有資料的科學家”

作為一名科學家對我來說意味著你遇到一個難題,一個研究型問題,你可以用任何方法來找到對這個問題的堅實答案。

作為資料科學家,我們傾向於使用定量方法和從系統收集的資料來回答問題,但這不是獲得洞察力的唯一途徑。有時你精盡全力觀察或詢問使用者(定性方法),或者你出去收集資料(實驗和調查),或者你盯住別人(競爭分析)。

一個好的科學家不會透過他們的方法來定義自己,第一個資料全能選手(或者任何資料全能選手)也不會。

我們的目標是滿足緊迫的業務需求:“為什麼沒有人使用我們的產品?”“我們的回報怎麼這麼高?”我們是否應該進行這種昂貴的銷售呢?““是什麼導致客戶流失?”“什麼是客戶的終身價值,是什麼推動了這一點?”

明天-打造資料驅動型公司

我看到的一個常見的陷阱是來自資料科學計劃的人加入這些職位,期望使用像Spark這樣的性感東西並應用RNN來完成他們的工作。但很遺憾,不匹配是非常殘酷的。

在小公司如何做一名成功的資料科學家?

花哨的“資料科學”方法依賴於大量的東西,不要指望每一層在移動到下一層之前都“完成”。把顏色想象成“ 花費的時間”。

作為第一個被僱用為處理資料的人,金字塔的任何一層都不太可能是堅固的。這是一個多年,跨職能,全公司的努力才得以實現。並行培養這些技能是工作的重要部分。

請注意,在典型的業務中,無論底層的穩定性如何,你都會嘗試同時在金字塔上下執行操作。我已經為脆弱的新系統構建了大量的儀表板和分類器,你也會這樣做。

固態生產系統和工程實踐

比如在一個堅固的“工程駕駛室”,如果系統出現故障,而且無法獲得真正測量系統的行為,這時候此會希望根據需要提供幫助。

你擁有的“資料工程師”頭銜越多,在幫助構建堅固系統方面所扮演的角色就越重要。人們自然會問你關於輸入的問題,如PostgresSQL vs MySQL,AWS vs GCP,Spark vs Redshift等,幫助這些可以增加持久延續的價值。如果沒有足夠的Eng資源則必須自己來設定系統並執行它們。

可靠的儀器儀表

獲得可靠的儀器資料人員最關鍵的事情。這是一個無休止的程式,從挑選框架(多個)到收集系統和使用者資料,確保工程師學習如何實現事物而不計算錯誤,確保資料庫和日誌正在做正確的事情(TM),並確保你在計算你認為正確的東西。

同時專門新增系統用來收集和報告資料,這些將需要由某人(也許是你)組合和管理。

在文化方面,會不斷有人來詢問資料的可靠性以及如何處理這些資訊,他們會要求解釋和深度剖析系統,直到他們自己非常瞭解。

當你製作報告時,這種文化培訓本身就是一個漫長的過程,人們發現與其他系統不一致並且得到的結果與他們對現實的看法不相符時,可能現實是錯誤的,也可能是正確的。

報告和處理資料

在小公司如何做一名成功的資料科學家?

儀表板和報告不是一項有趣的工作,更不幸的是,它通常是整個公司人員每天觀察公司健康狀況的唯一方式,因此投資是必要的,目標是把可操作的資訊交給可以採取行動的人。

一開始,大多數儀表板和報告都是手動的,需要大量的迭代才能達到需求。雖然,自動化是一個很好的選擇,但洞察力也是需要著重考慮的。

技術方面並不複雜,有許多服務平臺可用於生成報告和儀表板,同時甚至可以使用自定義程式碼執行操作。

訣竅是讓所有資料系統一起玩(HaHa),並在業務增長時最小化維護儀表板和報告的成本。

文化方面是事物有趣的地方。當你正在訓練在這裡的人們變得更加資料化,這也需要多年的工作和實踐。

這裡涉及大量的教育。你將教人們如何閱讀A / B測試的結果,重要的差異意味著什麼,解釋信心或預測間隔是什麼,解釋為什麼該圖表“只是一個估計。你會提出有關樣本量的問題,並且經常需要教會處理問題的方法。

如果人們關注儀表板上的數字,人們應該怎麼做?就個人而言,我告訴他們來跟我討論。他們的擔憂可能是一個研究問題(或一個錯誤),而這就是研究“黃金”。這些人是這部分業務的領域專家,而我只是一個用SQL的書呆子。

自動化與實驗

在小公司如何做一名成功的資料科學家?

隨著時間的推移,你將設定新功能何時消失的指標和儀表板。人們不可避免地會對功能的表現感到失望。

一旦人們習慣了獲取資訊並且可能會執行一些A / B測試用來使結果令人失望,那麼當測試資料與人們的假設相反時,就會花費大量時間來驗證數字是否正確。

有用的儀表板應該高度自動化,人們習慣使用資料來做出決策。

另一件有趣的事情我注意到,不管結果如何,在這個階段,公司可以順利地執行實驗。他們學會設計他們知道自己會成功的測試(低風險),或者他們會“測試”他們100%知道他們將會發布的事情。

現在,作為科學家你可以透過這種行為呼喚人們。無論測試結果如何,它們都可以完全啟動。雖然激進的變化往往測試不佳,但應該明確說明意圖。

最後,資料科學

在經過漫長的旅程之後公司本身已經轉變為資料驅動。他們有假設能夠可靠地收集資料,並根據結果做出深思熟慮的決策。他們也更自給自足,可以閱讀(並且可能建立)帶有一些指導的儀表板,並且學會了何時擔心以及如何提出問題。

在金字塔下面總會有更多事情需要做,但至少現在事情並沒有隨時發生。

現在你可以考慮打破花哨的演算法......

或者也許有一個需要構建的資料倉儲,因為你現在有太多系統導致分析查詢無法進一步加速。

相關報導:

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2636133/,如需轉載,請註明出處,否則將追究法律責任。

相關文章