現代資料棧是如何走向實時化的?

qing_yun發表於2022-03-22

時代已經變了,企業對傳統的資料基礎設施越來越厭煩,這些基礎設施對關鍵的商業智慧問題回答得很慢,而且經常過時,與當前的業務現實不同步,通常是一天或更長時間。

現代企業的需求和要求正在以戲劇性的方式轉變。因此,舊的“批處理”模式(每天一次大的更新,查詢速度慢)正在讓位於更細化、更高頻率的實時更新(每秒多次更新,查詢速度快),從而帶來更新鮮的資料和更快的洞察力。

除了分析性的洞察力,實時資料基礎設施正在促成一類新的應用,可以在資料發生變化時做出反應。這涉及到資料堆疊的每一個部分,從資料攝取,到業務分析,到機器學習和人工智慧。

隨著用例的發展,支援它們的基礎架構也在不斷髮展。走向實時並不是調整舊資料系統那麼簡單,在許多情況下,基礎設施已經從頭開始重寫,以實現實時工作負載。

在現代資料棧中,實時基礎設施和工具可以採取多種形式:

·以高頻率和高容量將小資料包從A處流向B處(例如:Apache Kafka、Redpanda、Apache Pulsar)。

·透過流處理工具過濾和轉換對流資料(例如:Apache Flink、Apache Samza、Decodable)。

·實時分析,讓分析師在低延遲的情況下獲得對業務查詢的最新反饋(例如:Materialize、ClickHouse、Tinybird)。

·實時或線上機器學習模型,不斷適應和學習資料,並實時生成預測(例如:Tecton)。

今天,將這些不同的系統組合起來仍然是是一件棘手的事情。但是,進行這些投資的組織將獲得豐厚的回報,主要是實現傳說中的“實時企業”,成為一個能夠感知和應對其業務中發生的事件和變化的組織。

對實時性感興趣但又在尋找靈感?少數下一代組織已經成為早期採用者,併為新加入者開闢了採用路徑。

我最喜歡的一些大規模實時資料基礎設施的案例研究包括:

·Netflix:在七年的時間裡,Netflix將其流資料的使用案例從0增加到2000多個,同時在資料攝取、移動、分析和運營處理以及機器學習方面建立了實時能力。今天,Netflix的實時基礎設施每天處理數十萬億次的事件。

·Uber:Uber的實時基礎設施每天產生多個PB級的資料和數萬億條資訊,這些資料持續不斷從Uber司機、乘客和其他使用者那裡收集而來。Uber的移動應用、內部儀表盤、機器學習模型和臨時資料探索工具都有實時用例。

現在是實時的時代,這場革命發生得比你想象的要快。眨眼間,你可能會錯過它。

作者:光速創投合夥人Nnamdi Iregbulem

來自 “ https://news.crunchbase.com/news/real-time-modern- ”,原文連結:http://blog.itpub.net/69925873/viewspace-2882715/,如需轉載,請註明出處,否則將追究法律責任。

相關文章