Databricks決定開源其Delta Lake資料湖
為了消除 Databricks 競爭對手的疑慮,Databricks 週二表示,它正在開源所有 Delta Lake API,作為 Delta Lake 2.0 版本的一部分。該公司還宣佈將把 Delta Lake 的所有增強功能貢獻給 Linux 基金會。
Cloudera、Dremio、谷歌(Big Lake)、微軟、甲骨文、SAP、AWS Snowflake、HPE(Ezmeral)和 Vertica 等 Databricks的競爭對手對該公司提出了批評,質疑 Delta Lake 是開源的還是專有的,因此搶走了一定份額的潛在客戶。
Ventana Research 研究總監馬特·阿斯萊特(Matt Aslett)說:“新公告應該為使用者提供連續性和清晰度,並有助於消除關於 Delta Lake 是專有還是開源的混淆(部分由競爭對手引發)。”
Constellation Research 首席分析師 Doug Henschen 表示,隨著這些公告的釋出,Databricks 正在消除客戶的擔憂和競爭性批評。
“在競爭性交易中,Snowflake 等競爭對手會向潛在客戶指出 Delta Lake 的某些方面是專有的,”Henschen 說,並補充說 Databricks 客戶可以相信他們的資料在一個開放平臺上,而不是鎖定在 Delta Lake 中。
Databricks 將 Delta Lake 稱為資料庫湖,一種同時提供儲存和分析功能的資料架構,這與以原生格式儲存資料的資料湖和儲存結構化資料(通常以 SQL 格式)的資料倉儲的概念形成對比。
商業開源市場競爭加劇
隨著資料湖市場上的商業開源專案越來越多,Databricks 的 Delta Lake 會發現自己面臨新的競爭,包括為超大型分析表提供高效能查詢的 Apache Iceberg。
“還有一些開源專案最近開始商業化,例如用於 Apache Hudi 的 OneHouse 以及 Starburst 和 Dremio 都推出了他們的 Apache Iceberg 產品,”Amalgam Insights 首席分析師 Hyoun Park 說。“隨著這些產品的推出,Delta Lake 面臨著來自其他開源 Lakehouse 格式的壓力,因為 Lakehouse 市場開始分裂並且技術人員有多種選擇,因此在功能上變得更加強大,”Park 補充道。
Ventana 的 Aslett 說,該領域的許多其他參與者都專注於 Apache Iceberg 作為 Delta Lake 表的替代品。與以行和列儲存資料的傳統表相比,Delta 表可以使用 ACID(原子性、一致性、隔離性和永續性)事務來儲存後設資料,並幫助加快資料匯入。
4 月,Google 宣佈支援 Big Lake 和 Iceberg,本月早些時候,Snowflake 宣佈在私人預覽版中支援 Apache Iceberg 表。Henschen 說,與 Databricks 的開源戰略一樣,Iceberg 的公告旨在吸引潛在客戶,這些客戶可能擔心向一家供應商承諾,以及未來可能無法訪問自己的資料。
Gartner 前研究副總裁 Sanjeev Mohan 表示,面對新的競爭,Databricks 轉向開源 Delta Lake 是一個很好的舉措。
Delta Lake 2.0 提供更快的查詢效能
該公司表示,Databricks 的 Delta Lake 2.0 將於今年晚些時候全面推出,預計將為資料分析提供更快的查詢效能。
Databricks 週二還發布了第二版 MLflow——一個用於管理端到端機器學習生命週期 (MLOps) 的開源平臺。該公司表示,MLflow 2.0 附帶 MLflow Pipelines,它為資料科學家提供基於他們正在構建的模型型別的預定義、生產就緒模板,使他們能夠加速模型開發,而無需生產工程師的干預。
據分析師稱,MLflow 2.0 將成為資料科學家更成熟的選擇,因為機器學習生產仍然是一個具有挑戰性的過程,並且將演算法模型轉換為安全管理資源上的生產級應用程式程式碼仍然很困難。
“這個領域有許多供應商解決方案,包括 Amazon Sagemaker、Azure 機器學習、谷歌雲 AI、Datarobot、Domino Data、Dataiku 和 Iguazio。但與超大規模和 Databricks 的統一方法相比,Databricks 是一箇中立的供應商資料和模型管理是 MLOps 供應商的一個差異化因素,這些供應商專注於模型操作化的編碼和生產挑戰,”Amalgam 的 Park 說。
Henschen 表示,釋出 MLflow 2.0 的舉措簡化了將流式傳輸和流式分析引入生產資料管道的途徑,並補充說,許多公司在 MLOps 方面遇到了困難,即使在成功建立機器學習模型後也會失敗。
來自 “ 分散式實驗室 ”, 原文作者:阿布嘟;原文連結:https://mp.weixin.qq.com/s/F9-EffeOMvJ0B8FyGEKdHw,如有侵權,請聯絡管理員刪除。
相關文章
- 資料湖揭祕—Delta Lake
- 為什麼Databricks Delta Lake表格式開源很重要?
- Delta Lake 資料湖原理和實戰
- 資料湖倉比較:Apache Hudi、Delta Lake、Apache IcebergApache
- 資料湖表格式比較(Iceberg、Hudi 和 Delta Lake)
- 資料庫圈周盤點:達夢擬科創板IPO;Delta Lake 2.0開源資料庫
- 深度對比Apache CarbonData、Hudi和Open Delta三大開源資料湖方案Apache
- 亞馬遜雲科技推出安全資料湖Amazon Security Lake亞馬遜
- 常見的三大資料湖技術 - Delta、Hudi、Iceberg大資料
- 消除資料重力,從智慧湖倉(Lake House)讀懂實現資料價值的未來
- 談談如何從資料湖(Data Lake)架構轉向資料網格(Data Mesh)架構架構
- BW中自定義資料來源的Delta機制
- 關於Delta Lake的ACID事務機制簡介
- 資料湖
- 資料湖+資料倉儲 = 資料湖庫架構架構
- Apache Hudi:雲資料湖解決方案Apache
- 開源大資料解決方案大資料
- 資料湖中加熱資料?
- Aerospike 宣佈開源其記憶體中的 NoSQL 資料庫ROS記憶體SQL資料庫
- 替代Hadoop作為資料湖的新的開源專案 - unpocodejavaHadoopJava
- 能夠替代Hadoop用作資料湖新的開源專案 - unpocodejavaHadoopJava
- 資料湖--架構師如何助力“湖加速”?架構
- 多源資料快速遷移匯聚,杉巖資料推出智慧資料湖新通道
- 阿里云云原生資料湖體系全解讀——資料湖開發治理平臺 DataWorks阿里
- 資料湖架構,為什麼需要“湖加速”?架構
- C++搜尋與回溯演算法之Lake Counting(數湖)C++演算法
- Databricks 第8篇:把Azure Data Lake Storage Gen2 (ADLS Gen 2)掛載到DBFS
- 讀資料湖倉02資料抽象抽象
- 讀資料湖倉06資料整合
- 【譯】「開源」其實很容易
- 構建企業CDC資料湖解決方案 -DZone
- 使用Data Lake Analytics讀/寫RDS資料
- 萬字詳解資料倉儲、資料湖、資料中臺和湖倉一體
- 資料湖 vs 資料倉儲 vs 資料庫資料庫
- 資料湖 vs 倉庫 vs 資料庫資料庫
- 資料湖會取代資料倉儲嗎?
- 談談資料湖和資料倉儲
- 大資料轉型方案:首推資料湖!大資料