Databricks決定開源其Delta Lake資料湖

danny_2018發表於2022-07-06

為了消除 Databricks 競爭對手的疑慮,Databricks 週二表示,它正在開源所有 Delta Lake API,作為 Delta Lake 2.0 版本的一部分。該公司還宣佈將把 Delta Lake 的所有增強功能貢獻給 Linux 基金會。

Cloudera、Dremio、谷歌(Big Lake)、微軟、甲骨文、SAP、AWS Snowflake、HPE(Ezmeral)和 Vertica 等 Databricks的競爭對手對該公司提出了批評,質疑 Delta Lake 是開源的還是專有的,因此搶走了一定份額的潛在客戶。

Ventana Research 研究總監馬特·阿斯萊特(Matt Aslett)說:“新公告應該為使用者提供連續性和清晰度,並有助於消除關於 Delta Lake 是專有還是開源的混淆(部分由競爭對手引發)。”

Constellation Research 首席分析師 Doug Henschen 表示,隨著這些公告的釋出,Databricks 正在消除客戶的擔憂和競爭性批評。

“在競爭性交易中,Snowflake 等競爭對手會向潛在客戶指出 Delta Lake 的某些方面是專有的,”Henschen 說,並補充說 Databricks 客戶可以相信他們的資料在一個開放平臺上,而不是鎖定在 Delta Lake 中。

Databricks 將 Delta Lake 稱為資料庫湖,一種同時提供儲存和分析功能的資料架構,這與以原生格式儲存資料的資料湖和儲存結構化資料(通常以 SQL 格式)的資料倉儲的概念形成對比。

商業開源市場競爭加劇

隨著資料湖市場上的商業開源專案越來越多,Databricks 的 Delta Lake 會發現自己面臨新的競爭,包括為超大型分析表提供高效能查詢的 Apache Iceberg。

“還有一些開源專案最近開始商業化,例如用於 Apache Hudi 的 OneHouse 以及 Starburst 和 Dremio 都推出了他們的 Apache Iceberg 產品,”Amalgam Insights 首席分析師 Hyoun Park 說。“隨著這些產品的推出,Delta Lake 面臨著來自其他開源 Lakehouse 格式的壓力,因為 Lakehouse 市場開始分裂並且技術人員有多種選擇,因此在功能上變得更加強大,”Park 補充道。

Ventana 的 Aslett 說,該領域的許多其他參與者都專注於 Apache Iceberg 作為 Delta Lake 表的替代品。與以行和列儲存資料的傳統表相比,Delta 表可以使用 ACID(原子性、一致性、隔離性和永續性)事務來儲存後設資料,並幫助加快資料匯入。

4 月,Google 宣佈支援 Big Lake 和 Iceberg,本月早些時候,Snowflake 宣佈在私人預覽版中支援 Apache Iceberg 表。Henschen 說,與 Databricks 的開源戰略一樣,Iceberg 的公告旨在吸引潛在客戶,這些客戶可能擔心向一家供應商承諾,以及未來可能無法訪問自己的資料。

Gartner 前研究副總裁 Sanjeev Mohan 表示,面對新的競爭,Databricks 轉向開源 Delta Lake 是一個很好的舉措。

Delta Lake 2.0 提供更快的查詢效能

該公司表示,Databricks 的 Delta Lake 2.0 將於今年晚些時候全面推出,預計將為資料分析提供更快的查詢效能。

Databricks 週二還發布了第二版 MLflow——一個用於管理端到端機器學習生命週期 (MLOps) 的開源平臺。該公司表示,MLflow 2.0 附帶 MLflow Pipelines,它為資料科學家提供基於他們正在構建的模型型別的預定義、生產就緒模板,使他們能夠加速模型開發,而無需生產工程師的干預。

據分析師稱,MLflow 2.0 將成為資料科學家更成熟的選擇,因為機器學習生產仍然是一個具有挑戰性的過程,並且將演算法模型轉換為安全管理資源上的生產級應用程式程式碼仍然很困難。

“這個領域有許多供應商解決方案,包括 Amazon Sagemaker、Azure 機器學習、谷歌雲 AI、Datarobot、Domino Data、Dataiku 和 Iguazio。但與超大規模和 Databricks 的統一方法相比,Databricks 是一箇中立的供應商資料和模型管理是 MLOps 供應商的一個差異化因素,這些供應商專注於模型操作化的編碼和生產挑戰,”Amalgam 的 Park 說。

Henschen 表示,釋出 MLflow 2.0 的舉措簡化了將流式傳輸和流式分析引入生產資料管道的途徑,並補充說,許多公司在 MLOps 方面遇到了困難,即使在成功建立機器學習模型後也會失敗。

來自 “ 分散式實驗室 ”, 原文作者:阿布嘟;原文連結:https://mp.weixin.qq.com/s/F9-EffeOMvJ0B8FyGEKdHw,如有侵權,請聯絡管理員刪除。

相關文章