從初創到頂級技術公司，都在用哪些資料科學技術棧？

大資料文摘發表於2020-04-26

資料科學

大資料文摘出品

來源：medium

編譯：睡不著的iris

說到技術棧，你能想到什麼？

組織在構建自己專屬的技術棧時，會使用到各種不同的相似技術。但也存在一些趨勢，如果你正在組建一個新的團隊、組織或公司的時候，一開始你可能需要效仿某個現成的技術棧，再依據需求來構建自己的技術棧，還需要對一些過時的技術進行升級。

medium上的一位博主最近與資料工程師、資料科學家和分析師交流後，總結了技術棧資訊，並分享了每個部分都有哪些最常使用的棧，至於雲服務選擇、容器、CI/CD工具等應用和模型部署相關的技術，就留給工程師和DevOps夥伴們來探索。

一起看看。

公司A—SaaS創業公司

資料庫：MySQL

資料倉儲：PostgreSQL, Snowflake

ETL：Embulk, Python, Airflow

視覺化：Redash, Metabase

人工智慧/機器學習：暫無

公司B—AI創業公司

資料庫：PostgreSQL

資料倉儲：PostgreSQL + Stitch

ETL：大量使用Python

視覺化：Matplotlib, TensorBoard (sorta？)

人工智慧/機器學習：無處不在的TensorFlow，部分Sklearn或開始嘗試使用

公司C—中型技術公司

資料庫：MongoDB (NoSQL), 或遷移至 DynamoDB (NoSQL)

資料倉儲：Amazon Redshif

ETL：Airflow, Python

視覺化：什麼都有一些

人工智慧/機器學習：投入可觀

公司D—大量分析需求的大型組織

資料庫：SQL Server （幾乎鍾情於Azure SQL DB）

資料倉儲：Azure Synapse (SQL DW), Snowflake

ETL：Azure Data Factory, Python

視覺化：Tableau, Power BI

分析：什麼都有一點

人工智慧/機器學習：什麼都有一點

公司E—較少分析需求的大型組織

資料庫：Redis, SQL Server

資料倉儲：Azure Databricks (Spark)

ETL：Azure Data Factory, Python

視覺化：Redash

人工智慧/機器學習：隨機一次性使用，或依據使用者偏好來

公司F—中型資料公司

資料庫：MySQL（其他基本用的很少）

資料倉儲：Hive （以Hive為主，其他隨意）

ETL：50 種不同工具（有些誇張，但真沒什麼結構）

視覺化：使用各種主流視覺化工具

人工智慧/機器學習：什麼都有，看使用者偏好

公司G—技術公司（頂尖資料文化）

資料庫：MySQL, Cassandra (NoSQL), 定製其他資料庫

資料倉儲：Hadoop&定製/從頭開始構建

ETL：各種用例所需的棧都不同，該公司對技術棧選型所考慮的因素比較多……最終自己開發了不少ETL工具，或使用現成的工具

視覺化：常用的有Python庫、R和Tableau，但也會自己開發一些工具，並將工具開源

人工智慧/機器學習：採用TensorFlow框架實現深度學習，常見的機器學習標準庫，自行開發各類用於模型管理、追蹤指標的工具

最高效的方法是直接效仿，但你得搞清楚他們都能幫忙你做什麼，才可以用好。比如同是學習勒布朗·詹姆斯電影，你可能成為一個好的籃球選手，你可以花費大量時間來研究他的比賽，或模仿他的比賽方式來提升球技，但你終究不是詹姆斯。如果你和我一樣，遠沒有詹姆斯那樣的超能力，也不能跳過天花板，你就需要研究如何在比賽中表現得更好，變得更加優秀。

需要注意的是，很多技術我都沒有列出，你可能也發現了其中缺少一些流行的技術，例如Impala（Hadoop引擎）、Rapidminer（分析工具）、R（程式語言）、PyTorch（機器學習庫）等。如果你沒有看到自己喜歡的技術，請不要生氣，這隻能說明我只訪談了小部分人，他們沒有用到這些技術。

相關報導：

https://towardsdatascience.com/some-common-data-science-stacks-7525477c0dd0

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31562039/viewspace-2688397/，如需轉載，請註明出處，否則將追究法律責任。

剖析公司技術棧
2018-11-21
大資料技術棧，主要有哪些
2020-06-15
大資料
公司技術棧用到了Elasticsearch
2023-02-21
Elasticsearch
等級保護技術都包括哪些方面?
2023-03-31
大資料以及大資料技術都包括哪些內容
2019-08-09
大資料
快速創業之全棧技術棧
2024-09-18
創業全棧
技術初創公司的五個核心指標 - James
2022-02-24
指標
[譯] 初創公司的資料科學：簡介
2019-03-04
資料科學
【Spring技術棧】初識Spring Data JPA
2018-08-19
Spring
大資料技術包括哪些
2022-05-16
大資料
大資料技術有哪些
2022-05-23
大資料
面試了 Hypref 技術棧的公司
2023-03-20
面試
從古代文學到雲端技術
2022-06-06
從技術到醫療，雲知聲全棧AI技術為智慧醫療加碼
2022-05-30
全棧AI
大資料工程師需要學習哪些技術?
2018-12-15
大資料工程師
大資料探勘有哪些技術
2022-03-29
大資料
資料探勘技術功能有哪些
2022-03-23
從工程師到技術leader思維升級
2022-07-19
工程師
創業公司CTO談創業公司技術選型
2018-11-27
創業
滲透測試好學嗎?都需要學習哪些技術?
2023-02-27
聊聊創業公司的技術選型－－樸素的技術觀
2019-05-11
創業
五分鐘學後端技術：一篇文章教你讀懂大資料技術棧！
2020-04-01
後端大資料
大資料之亞秒級實時計算技術學哪些內容？
2023-12-07
大資料
前端技術 | 從Flux到Redux
2019-05-08
前端Redux
追一科技劉雲峰：今年是NLP技術大年，要做全棧的AI公司
2019-10-18
全棧AI
大資料相關技術有哪些？
2018-04-22
大資料
前端技術演進（七）：前端跨棧技術
2019-02-16
前端
科學甩鍋技術: Typescript 執行時資料校驗
2019-04-19
TypeScript
與頂級網際網路公司技術大佬面對面聊聊RocketMQ
2021-09-22
MQ
Android技術棧(一)從Activity遷移到Fragment
2019-03-20
AndroidFragment
都知道RFID技術，可你瞭解RFID的關鍵技術是哪些嗎？
2021-04-23
從容器化到資源池化，數棧雲原生技術實踐探索之路
2022-04-15
資料科學和人工智慧技術筆記十九、資料整理（6）
2019-01-01
資料科學人工智慧筆記
從 0 到 1：我的 Flutter 技術實踐 | 掘金技術徵文
2018-07-10
Flutter
2020年學習Linux技術可以從事哪些工作?
2020-09-24
Linux
IPv6過渡技術之雙棧技術
2019-10-11
Cube 技術解讀 | Cube 卡片技術棧詳解
2021-11-03
大資料技術的特點有哪些
2022-03-29
大資料