如何使用傳統資料庫思維進行實時資料流分析？ – thenewstack

banq發表於2021-10-19

大多數流資料技術需要開發人員的思維方式不同於使用傳統關聯式資料庫的思維方式。但是現在，專注於時間序列資料庫的初創公司Deephaven Data Labs釋出了Deephaven Community Core，這是其企業產品的免費、可獲取源版本以應對這一挑戰。

Deephaven 在幕後使用Apache Kafka、Apache Arrow和Arrow Flight。針對平臺編寫的程式碼可以訂閱 Kafka 主題並帶回一個 Deephaven 表物件，它非常類似於Pandas DataFrame。但是表物件不像 DataFrame 那樣是靜態的——它們會隨著新資料流的流入而實時自動更新。IDE 中連線到表物件的視覺化和資料網格同樣會作為底層物件自動更新資料變化。並且不需要顯式程式碼來支援任何這些。
大資料量（例如，數十億條記錄）可以在 IDE 中處理，使用者可以聚合和過濾資料以及對其執行關係和時間序列連線。在 IDE 中，可以透過設定“連結器”來過濾資料，它允許在一個資料網格中進行選擇以過濾其他資料網格中的內容。喜歡使用Jupyter notebooks 的開發人員可以自由地這樣做，因為 Deephaven 提供了 Jupyter 網格和圖表小部件，其具有與 IDE 中可用的相同的自動更新行為。JavaScript 開發人員也得到明確的支援。

Deephaven 社群還支援所謂的派生流。這些是透過對現有表物件執行查詢而建立的實時檢視。這樣，使用者就不必對 Kafka 主題進行任何顯式連線或訂閱；相反，一切都是透過 SQL 查詢和賦值語句完成的。

與傳統資料庫一樣，Deephaven 可以確保更新在一個流、源或跨多個源中是原子的。提供抓取資料快照的 JDBC 和 ODBC 聯結器，以將 BI 工具連線到 Deephaven。當使用者重新整理他們的報告時，他們將獲得上次更新後流入的所有資料。
在人工智慧方面，使用者可以根據實時和歷史資料訓練模型。Deephaven 社群提供了一個名為Learn的模組，它利用 Deephaven 的強大功能並將其與PyTorch和TensorFlow等整合，以便使用者可以一起使用 Deephaven 和這些庫。這種組合甚至可以支援持續增量再訓練的場景。

Deephaven 及其 IDE 不支援所有常見的 BI 工具功能；相反，今天的 BI 工具並不是為處理實時資料而設計的。但這些功能可能會新增到 Deephaven 中，具體取決於客戶的需求。
Deephaven 來自金融服務領域，是為高頻交易公司Walleye Trading內部使用而開發的，最初由 Deephaven 的執行長Pete Goddard領導。該技術是專門開發的，因為市場上已有的資料庫不能滿足 Walleye 的高資料量、高頻要求。
Deephaven 是一家擁有 40 名員工的公司，已有近 5 年的歷史。它的平臺作為商業企業產品已經有一段時間了，支援大規模部署它的客戶，並強化了高可用性和可靠性功能。免費的社群核心版本作為 Docker 容器映象提供。

如何培養資料分析思維？
2022-02-16
使用Apache Flink和Apache Ignit進行資料流分析
2018-10-14
Apache
資料庫系統原理（思維導圖）
2020-09-30
資料庫
資料分析思維有哪些
2023-12-07
大資料常見的資料分析思維
2022-03-28
大資料
如何實施資料網格？ - thenewstack
2022-02-21
使用pandas進行資料分析
2024-10-27
大資料如何進行分析
2022-12-15
大資料
[譯] 使用 Pandas 對 Kaggle 資料集進行統計資料分析
2018-11-12
BTA|王濤：傳統IT人如何用資料庫思維來理解區塊鏈？去中心化資料庫也許是答案
2018-04-18
資料庫區塊鏈中心化
大資料實時多維OLAP分析資料庫Apache Druid入門分享-上
2023-01-31
大資料資料庫ApacheUI
大資料實時多維OLAP分析資料庫Apache Druid入門分享-下
2023-02-01
大資料資料庫ApacheUI
使用python進行Oracle資料庫效能趨勢分析
2018-06-14
PythonOracle資料庫
如何使用Java Streams進行資料庫查詢？
2018-09-14
Java資料庫
企業內部資料如何進行資料分析
2024-02-20
如何用Python進行資料分析？
2019-01-15
Python
大資料分析該如何進行
2022-05-20
大資料
如果通過流資料實現實時分析？
2022-03-14
大資料時代，從零學習資料思維
2018-09-06
大資料
【資料分析】針對家庭用電資料進行時序分析（1）
2023-09-26
實時資料庫與時序資料庫
2020-11-28
資料庫
使用Redis和Java進行資料庫快取 - DZone資料庫
2019-04-18
RedisJava資料庫快取
資料庫上雲實踐：使用Ora2pg進行資料庫遷移
2022-03-28
資料庫
掌握資料思維+實用分析工具,網站運營小白也能做好資料分析！
2021-12-30
網站
如何對資料目標進行分析
2022-03-23
如何更好的進行大資料分析
2022-05-20
大資料
Java實戰：教你如何進行資料庫分庫分表
2021-07-28
Java資料庫
資料庫新兵：分散式實時分析記憶體資料庫eSight
2018-12-17
資料庫分散式記憶體
在進行大資料視覺化分析時，到底要如何進行呢？
2022-09-19
大資料視覺化
如何使用 Milvus 向量資料庫實現實時查詢
2022-04-01
資料庫
如何使用帝國CMS進行資料庫匯出操作?
2024-09-21
資料庫
資料分析應有的邏輯思維及分析方法
2020-12-17
自動同步整個 MySQL/Oracle 資料庫以進行資料分析
2023-10-13
MySqlOracle資料庫
使用 Python 進行資料分析：入門指南
2024-07-26
Python
亞信安慧AntDB資料庫——實時流資料處理的先鋒
2023-12-20
資料庫
如何利用第三方資料進行大資料分析
2021-12-09
大資料
[譯] 在 Python 中，如何運用 Dask 資料進行並行資料分析
2018-12-24
Python並行
SAP系統如何進行資料拆分？
2022-05-23

如何使用傳統資料庫思維進行實時資料流分析？ – thenewstack

相關文章