從初創到頂級技術公司,都在用哪些資料科學技術棧?

大資料文摘發表於2020-04-26

從初創到頂級技術公司,都在用哪些資料科學技術棧?
大資料文摘出品
來源:medium
編譯:睡不著的iris

說到技術棧,你能想到什麼?

組織在構建自己專屬的技術棧時,會使用到各種不同的相似技術。但也存在一些趨勢,如果你正在組建一個新的團隊、組織或公司的時候,一開始你可能需要效仿某個現成的技術棧,再依據需求來構建自己的技術棧,還需要對一些過時的技術進行升級。

medium上的一位博主最近與資料工程師、資料科學家和分析師交流後,總結了技術棧資訊,並分享了每個部分都有哪些最常使用的棧,至於雲服務選擇、容器、CI/CD工具等應用和模型部署相關的技術,就留給工程師和DevOps夥伴們來探索。

一起看看。

公司A—SaaS創業公司


資料庫:MySQL
資料倉儲:PostgreSQL, Snowflake
ETL:Embulk, Python, Airflow
視覺化:Redash, Metabase
人工智慧/機器學習:暫無

公司B—AI創業公司


資料庫:PostgreSQL
資料倉儲:PostgreSQL + Stitch
ETL:大量使用Python
視覺化Matplotlib, TensorBoard (sorta?)
人工智慧/機器學習:無處不在的TensorFlow,部分Sklearn或開始嘗試使用

公司C—中型技術公司


資料庫:MongoDB (NoSQL), 或遷移至 DynamoDB (NoSQL)
資料倉儲:Amazon Redshif
ETL:Airflow, Python
視覺化:什麼都有一些
人工智慧/機器學習:投入可觀

公司D—大量分析需求的大型組織


資料庫:SQL Server (幾乎鍾情於Azure SQL DB)
資料倉儲:Azure Synapse (SQL DW), Snowflake
ETL:Azure Data Factory, Python
視覺化:Tableau, Power BI
分析:什麼都有一點
人工智慧/機器學習:什麼都有一點

公司E—較少分析需求的大型組織


資料庫:Redis, SQL Server
資料倉儲:Azure Databricks (Spark)
ETL:Azure Data Factory, Python
視覺化:Redash
人工智慧/機器學習:隨機一次性使用,或依據使用者偏好來

公司F—中型資料公司


資料庫:MySQL(其他基本用的很少)
資料倉儲:Hive (以Hive為主,其他隨意)
ETL:50 種不同工具 (有些誇張,但真沒什麼結構)
視覺化:使用各種主流視覺化工具
人工智慧/機器學習:什麼都有,看使用者偏好

公司G—技術公司(頂尖資料文化)


資料庫:MySQL, Cassandra (NoSQL), 定製其他資料庫
資料倉儲:Hadoop&定製/從頭開始構建
ETL:各種用例所需的棧都不同,該公司對技術棧選型所考慮的因素比較多……最終自己開發了不少ETL工具,或使用現成的工具
視覺化:常用的有Python庫、R和Tableau,但也會自己開發一些工具,並將工具開源
人工智慧/機器學習:採用TensorFlow框架實現深度學習,常見的機器學習標準庫,自行開發各類用於模型管理、追蹤指標的工具

最高效的方法是直接效仿,但你得搞清楚他們都能幫忙你做什麼,才可以用好。比如同是學習勒布朗·詹姆斯電影,你可能成為一個好的籃球選手,你可以花費大量時間來研究他的比賽,或模仿他的比賽方式來提升球技,但你終究不是詹姆斯。如果你和我一樣,遠沒有詹姆斯那樣的超能力,也不能跳過天花板,你就需要研究如何在比賽中表現得更好,變得更加優秀。

需要注意的是,很多技術我都沒有列出,你可能也發現了其中缺少一些流行的技術,例如Impala(Hadoop引擎)、Rapidminer(分析工具)、R(程式語言)、PyTorch(機器學習庫)等。如果你沒有看到自己喜歡的技術,請不要生氣,這隻能說明我只訪談了小部分人,他們沒有用到這些技術。
 
相關報導:



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2688397/,如需轉載,請註明出處,否則將追究法律責任。

相關文章