微軟和 Databricks 雙劍合璧,為資料平臺市場帶來什麼改變?

qing_yun發表於2023-11-29

在微軟的 Ignite 大會上,其執行長Satya Nadella稱,Fabric 可能是自SQL Server 推出以來最大的資料產品釋出。

Microsoft Fabric於本月初GA,承諾將資料工程、資料湖、資料倉儲、機器學習和人工智慧整合到一個平臺中。

Fabric在很大程度上依賴於Databricks的開源技術,Databricks與微軟建立了廣泛的合作伙伴關係,並將其產品與Azure雲平臺緊密整合。

不過,分析師告訴The Register,使用者最好關注資料出口成本,而且擴充套件方法可能無法滿足客戶對企業商業智慧(BI)和資料倉儲工作負載的效能需求。

在 Fabric GA 的新聞中,微軟釋出了映象(Mirroring)功能,聲稱它將透過在自己的資料湖中建立外部資料來源的副本來提高分析效能。

Ventana Research分析師Matthew Aslett表示,雖然這類功能可能會讓微軟領先於Snowflake和谷歌等競爭對手,但這種優勢不太可能持續太久。“每家都在朝著同一個方向努力,在不同時間釋出新產品,其他廠商也會迎頭趕上:在這一點上,所有大廠商之間的競爭非常激烈。”他說。

資料工程、數倉和分析市場上的其他一些供應商(包括 SAS、Teradata、Qlik、Fivetran 和 Informatica)也都發布了公告,以配合 Fabric 的釋出,並打賭微軟將成為許多使用者的首選平臺。

這樣做的目的是確保如果使用者選擇 Microsoft Fabric 作為其主要資料平臺,他們仍能在遊戲中勝出。“很多企業都希望減少資料和分析供應商的數量,”Aslett 說。“顯然,他們正試圖在這兩者之間取得平衡,但又不被鎖定。這是個有趣的平衡點:你希望減少供應商的數量,將其減少到一家,但他們所面對的大多數企業都擁有一系列不同的資料平臺。”

在映象功能中,微軟將外部資料庫的快照複製到OneLake的Delta Parquet表中,並保持副本 “接近實時同步“。然後,使用者可以建立快捷方式,允許其他Fabric工作負載(聯結器、資料工程、構建人工智慧模型、資料倉儲)使用資料,而無需再次移動資料。微軟承諾,Azure Cosmos DB 和 Azure SQL DB 將能夠使用映象訪問 OneLake 中的資料,而 Snowflake 和 MongoDB 客戶也可以這樣做。

微軟承認,透過將資料映象到 Fabric 中,它將建立一個額外的資料副本,但能獲得效能優勢。例如,該副本避免了向Snowflake傳送SQL查詢,因為Fabric副本使用Apache Parquet和Delta Lake作為原生格式,因此OneLake可以在收到查詢時將資料貼上到記憶體中。

但使用者在權衡映象功能的優勢時,需要考慮將資料從遠端系統移出時的出口成本,Aslett 說。

“這當然是企業在使用這種功能之前需要評估的問題。”他說,“這將取決於資料來源和其他各種因素,但這絕對應該是一個考慮因素。”

與此同時,Snowflake也提出了自己的主張,即透過支援資料湖和資料倉儲,同時使用Apache Iceberg表格式(Cloudera和谷歌也支援該技術)查詢外部資料來源,成為無所不能的平臺。該公司表示,它相信消除資料副本可以簡化管理並提高效率。

在11月中旬宣佈Fabric訊息的同時,Databricks確認將對其Lakehouse平臺進行全面改造,推出一個名為DatabricksIQ的所謂資料智慧層,為其Lakehouse平臺的所有部分“提供動力”,該平臺旨在適應非結構化資料湖以及結構化商業智慧和分析資料倉儲工作負載。

Databricks的新平臺計劃利用其斥資13億美元收購生成式人工智慧初創公司MosaicML所獲得的技術。Databricks 聲稱,它將推出端到端檢索增強生成(RAG),幫助建立“高質量的自定義資料對話代理”,但尚未公佈任何產品細節。

資料湖和資料倉儲的效能不能一概而論,在BI場景中,可能會有數百甚至數千名使用者同時訪問資料庫,老一代供應商透過查詢最佳化和專業硬體解決了這個問題。雖然基於雲的現代資料倉儲可以透過增加節點來解決這個問題,但使用者將面臨相應的成本。

2021 年,Gartner 指出,基於雲的資料湖可能難以應付 10 個以上併發使用者的 SQL 查詢。Databricks對這一說法提出了質疑,但表示已經意識到了其中的挑戰。該公司表示,為了支援更多使用者,客戶可以在雲中安裝更多終端。

Aslett說,越來越多的企業在嘗試擴充套件資料湖和支援企業BI工作負載時意識到了困難。

“我們看到這樣的例子:一些企業已經對雲環境進行了一些小規模測試,可以在小範圍內提供效能,但當他們將其投入生產,面對更高水平的併發使用者和更高水平的併發查詢時,就會遇到效能方面的問題。我們看到企業對高效能工作負載有了更多的認識,這也是我們看到一些工作負載仍留在企業內部的原因之一。”

例如,阿迪達斯圍繞 Databricks 建立了一個資料平臺。該環境支援這家全球體育用品製造商開發機器學習模型。它還支援商業智慧工作負載,該公司還利用記憶體資料庫Exasol建立了一個加速層。

Exasol公司技術長馬Mathias Golombek告訴The Register,該公司經常在客戶發現他們的資料平臺無法以足夠的效能支援某些工作負載的專案中被請來。“像阿迪達斯這樣的客戶,可能有超過 10000 名 BI 使用者在檢視不斷更新的儀表盤。”他說,你需要一個強大的加速層,而這正是我們所提供的。

根據 Exasol 的市場調查,近 30% 的客戶在使用 BI 工具時遇到效能問題。“這意味著沒有足夠的人可以訪問BI儀表盤,或者它們太慢,或者由於底層資料系統的原因,使得使用者可以提出的問題的複雜性受到限制。”Golombek說,Exasol的產品Espresso是一種商業智慧加速器,它基於公司的記憶體列式資料庫,具有大規模並行處理(MPP)架構和自動調整功能。

Amalgam Insights公司執行長Hyoun Park表示,透過重新命名其平臺並整合GenAI功能,Databricks聲稱可以在使用者的所有資料中提供相同的語義上下文,同時在整個AI生命週期中保持對智慧財產權的管理。“這一新的產品定位表明,僅僅把所有資料放在一個地方並對這些資料進行分析已經不夠了。”他說。

Databricks 早在 2020 年就提出了 “Lakehouse”的概念,並獲得了可觀的資金。今年9月,第I輪風險投資又獲得了5億美元,名義估值為430億美元。Park 說:“這些現金可以幫助公司定義‘下一代術語’,讓他們看到未來幾年的發展方向。”

然而,管理多節點 Spark 叢集的複雜性意味著需要一個第三方技術層來提高效能。

“基於記憶體 MPP 和自動調整,Exasol 一直以支援分析的速度而著稱,”Park 說。隨著資料量的增加,支援結構化資料的高效能分析變得越來越具有挑戰性,我們正在到達一個拐點,在這個拐點上,資料開始超出多節點Spark叢集管理的複雜度,或使其不堪重負。

“雖然有快取常用資料等優先使用記憶體的策略,不過一旦沒有額外的策略來支援更快的查詢,而又不佔用 Spark 叢集資源和管理技能,Exasol 可用作複製結構化 Databricks 資料的工具。”

雖然 Databricks 和微軟正在競爭和合作,以定義在單一環境中支援 BI、分析和機器學習的一站式資料平臺市場,但是終端使用者為了效能的緣故還需要其他的選擇。

來自 “ https://www.theregister.com/2023/11/27/microsoft_d ”,原文連結:http://blog.itpub.net/69925873/viewspace-2998079/,如需轉載,請註明出處,否則將追究法律責任。