- 原文地址:Data Science for Startups: Introduction
- 原文作者:Ben Weber
- 譯文出自:掘金翻譯計劃
- 本文永久連結:github.com/xitu/gold-m…
- 譯者:臨書
- 校對者:yqian1991
照片來源:rawpixel 發表在 pixabay.com
我最近換了行業,加入了一家創業公司,負責建立資料科學部。雖然我加入時這裡已經有了可靠的資料管道,但是沒有適用於可重複分析、擴充套件模型和執行實驗的流程。本系列博文的目標是概述如何從頭開始為創業公司構建資料科學平臺,並使用谷歌雲平臺(GCP)為讀者提供可以自己嘗試的真實示例。
本系列適用於希望超越訓練模型階段,以及想構建可能對公司產生影響的資料管道和資料產品的資料科學家和分析師。但是對於希望更好的瞭解如何與資料科學家合作執行實驗和構建資料產品的其他學科來說,它也是有用的。它適用於具有程式設計經驗的讀者,本系列主要使用了 R 與 Java 的程式碼示例。
為什麼選擇資料科學?
為您的創業公司僱傭資料科學家時,首先要問的問題之一是:資料科學將如何改進我們的產品?在 Windfall Data,我們的產品就是資料,因此資料科學的目標與公司的目標可以很好的協調,可以建立最準確的估算淨值模型。而在其他公司(如移動遊戲公司),答案可能沒那麼直接,資料科學可能對了解如何運營業務而不是改進產品更有用。但是在早期階段就開始收集有關客戶行為的資料通常是有益的,這樣您就可以在將來改進產品。
在初創公司啟動資料科學的好處有:
- 可以確定要跟蹤和預測的關鍵業務指標
- 可以建立客戶行為的預測模型
- 可以執行實驗以測試產品變化
- 可以構建支援新產品功能的資料產品
許多公司在前兩個或三個步驟中就陷入了困境,並沒有充分發揮資料科學的潛力。本系列部落格文章的目標是展示如何使用託管服務讓小型團隊超越僅為計算業務運營指標而搭建資料管道,過渡到資料科學可以為產品提供關鍵輸入的公司。
系列概述
以下是我對此部落格系列文章的主題計劃。當我寫新的部分時,我可能會新增或移動部分內容。如果您認為應該涵蓋其他主題,可以在文末提出來。
- 簡介(即本文):提供在初創公司使用資料科學的動力,並概述本系列文章所涵蓋的內容。類似的文章包括資料科學的功能,資料科學擴充套件還有我的 FinTech 之旅。
- 跟蹤資料:討論從應用程式和網頁捕獲資料的動機,提出收集跟蹤資料的不同方法,引入隱私和欺詐等問題,並以 Google PubSub 為例。
- 資料管道:介紹如何使用不同方法收集資料以供分析和資料科學團隊使用,討論了平面檔案、資料庫和資料池方式,並介紹了基於 PubSub,DataFlow 和 BigQuery 的實現。類似的文章有可擴充套件的分析管道和遊戲分析平臺的演進。
- 商業智慧:認識 ETL 的常見實踐經驗、自動化報告/儀表盤以及計算業務運營指標和 KPI。使用 R Shiny 和 Data Studio 為例。
- 探索性分析:涵蓋用於挖掘資料常用分析,比如構建直方圖和累積分佈函式、相關性分析以及線性模型的特徵重要性。使用 Natality 公共資料集進行示例分析。類似的文章有聚合前 1% 和 資料科學視覺化的 10 年。
- 預測建模:討論監督和非監督學習方法,並介紹流失和交叉推廣預測模型,以及評估離線模型效能的方法。
- 模型製作:展示如何擴充套件離線模型以獲得數百萬條記錄,並討論模型部署的批處理和線上方法。類似的文章有在 Twitch 產品化資料科學,還有使用 DataFlow 生成模型。
- 實驗:介紹產品的 A/B 測試,討論如何配置執行實驗的框架,並提供 R 和 bootstrapping 示例分析。類似的文章有分階段的 A/B 測試。
- 推薦系統:介紹推薦系統的基礎知識,並提供擴充套件生產系統推薦器的示例。類似的文章有推薦人原型設計。
- 深度學習:簡要介紹一些問題最好通過深度學習來解決的資料科學問題,例如將聊天訊息標記為令人反感的。提供帶有 Keras 的 R 介面的原型模型示例,以及使用 CloudML 的 R 介面進行產品化。
工具
在整個系列中,我將介紹基於 Google Cloud Platform 構建的程式碼示例。我選擇 GCP,因為它提供了許多託管服務,使小型團隊可以構建資料管道,產生預測模型並利用深度學習。也可以通過 GCP 註冊免費試用並獲得 300 美元的餘額。使用免費試用的 GCP 執行本系列中介紹的大多數主題已經夠了,但如果您的目標是深入瞭解雲端的深度學習,它將很快過期。
對於程式語言,我將使用 R 來編寫指令碼,Java 用於生產,以及使用 SQL 來處理 BigQuery 中的資料。我還會介紹其他工具,如 Shiny。建議讀者掌握一些 R 和 Java 的使用經驗,因為我不會介紹這些語言的基礎知識。
Ben Weber 是遊戲行業的資料科學家,在 Electronic Arts、Microsoft Studios、Daybreak Games 還有 Twitch 都有工作經驗。他還是 FinTech 初創公司的第一位資料科學家。
如果發現譯文存在錯誤或其他需要改進的地方,歡迎到 掘金翻譯計劃 對譯文進行修改並 PR,也可獲得相應獎勵積分。文章開頭的 本文永久連結 即為本文在 GitHub 上的 MarkDown 連結。
掘金翻譯計劃 是一個翻譯優質網際網路技術文章的社群,文章來源為 掘金 上的英文分享文章。內容覆蓋 Android、iOS、前端、後端、區塊鏈、產品、設計、人工智慧等領域,想要檢視更多優質譯文請持續關注 掘金翻譯計劃、官方微博、知乎專欄。