時代已經變了，企業對傳統的資料基礎設施越來越厭煩，這些基礎設施對關鍵的商業智慧問題回答得很慢，而且經常過時，與當前的業務現實不同步，通常是一天或更長時間。

現代企業的需求和要求正在以戲劇性的方式轉變。因此，舊的“批處理”模式(每天一次大的更新，查詢速度慢)正在讓位於更細化、更高頻率的實時更新(每秒多次更新，查詢速度快)，從而帶來更新鮮的資料和更快的洞察力。

除了分析性的洞察力，實時資料基礎設施正在促成一類新的應用，可以在資料發生變化時做出反應。這涉及到資料堆疊的每一個部分，從資料攝取，到業務分析，到機器學習和人工智慧。

隨著用例的發展，支援它們的基礎架構也在不斷髮展。走向實時並不是調整舊資料系統那麼簡單，在許多情況下，基礎設施已經從頭開始重寫，以實現實時工作負載。

在現代資料棧中，實時基礎設施和工具可以採取多種形式：

·以高頻率和高容量將小資料包從A處流向B處(例如：Apache Kafka、Redpanda、Apache Pulsar)。

·通過流處理工具過濾和轉換對流資料(例如：Apache Flink、Apache Samza、Decodable)。

·實時分析，讓分析師在低延遲的情況下獲得對業務查詢的最新反饋(例如：Materialize、ClickHouse、Tinybird)。

·實時或線上機器學習模型，不斷適應和學習資料，並實時生成預測(例如：Tecton)。

今天，將這些不同的系統組合起來仍然是是一件棘手的事情。但是，進行這些投資的組織將獲得豐厚的回報，主要是實現傳說中的“實時企業”，成為一個能夠感知和應對其業務中發生的事件和變化的組織。

對實時性感興趣但又在尋找靈感?少數下一代組織已經成為早期採用者，併為新加入者開闢了採用路徑。

我最喜歡的一些大規模實時資料基礎設施的案例研究包括：

·Netflix：在七年的時間裡，Netflix將其流資料的使用案例從0增加到2000多個，同時在資料攝取、移動、分析和運營處理以及機器學習方面建立了實時能力。今天，Netflix的實時基礎設施每天處理數十萬億次的事件。

·Uber：Uber的實時基礎設施每天產生多個PB級的資料和數萬億條資訊，這些資料持續不斷從Uber司機、乘客和其他使用者那裡收集而來。Uber的移動應用、內部儀表盤、機器學習模型和臨時資料探索工具都有實時用例。

現在是實時的時代，這場革命發生得比你想象的要快。眨眼間，你可能會錯過它。

作者：光速創投合夥人Nnamdi Iregbulem

現代資料棧是如何走向實時化的?

相關文章