什麼是現代資料棧?有什麼特徵?

qing_yun發表於2022-05-30

如果你聽說過一個叫做“現代資料棧”的東西,那麼你並不孤單,谷歌為該搜尋返回了4.89億條結果。雖然現代資料棧似乎並不像以前的計算堆疊那樣有明確的定義,但這個術語持續存在促使我們做了一些調查。

在過去,如果你說“哦,我們執行的是LAMP堆疊”,那麼你可以迅速傳達這樣一個事實:你的公司在Linux作業系統、Apache HTTP伺服器、MySQL資料庫和PHP(或Python或Perl)程式語言上執行應用程式。

現代資料棧背後的想法是類似的,但涉及的部分更多。有資料工程師(ETL工具、轉換工具和pub/sub系統)、資料分析師(BI工具、資料倉儲)和資料科學家(AI工作臺等)的工具。你可以根據受眾和需求,很容易地增加一系列其他類別--資料庫、資料目錄、治理工具、資料協調、實時資料流等。

這個列表很快就會失去控制。然而,現代資料棧存在的核心理念仍在我們的腦海中紮根。我們不得不承認,資料工具確實是一脈相承的。這似乎是Datanami所接觸的資料業內人士的共識。

Vertex Ventures描述的現代資料棧檢視

“我認為對於某些具有一定規模的公司和某些團隊來說,存在著可重複的模式。”資料目錄和治理供應商Alation的執行長兼聯合創始人Satyan Sangani說。“這種東西被稱為現代資料棧,有一套特定的工具--我們當然是其中之一,用例具有可重複性,我們傾向於使用的產品也具有可重複性。”

Sangani指出,Alation往往與其他幾個產品一起使用,包括用於資料倉儲的Snowflake,用於BI工具的Tableau,以及用於資料轉換的Fivetran,或者有時是Informatica。

“購買分析工具往往有這些模式,”他說。“有業務分析師的公司,我剛才提到的堆疊往往是很普遍的。在資料工程領域,例如,你可能有一個像Matillion這樣的產品,或者你可能有一個像Looker這樣的產品。”

Sangani說,對公司來說沒有一個萬能的現代資料棧。不同的組織有不同的堆疊和不同的工具。如果只有一種方法,那麼為什麼今天的分析工具公司比10年前多了5到10倍?他問道。

“這不是因為每個人都在做同樣的事情,”他說,“這是因為分析基本上是將人類的思想系統化,而這真的很難做到,有很多不同的方法可以做到這一點。”

大資料研究所的Jesse Anderson在Cloudera公司構建第一批大資料棧時,就親身經歷了Hadoop之戰。雖然Hadoop不再像以前那樣是大資料領域的大象,但Anderson肯定看到了一個確定的堆疊正在出現,它部分由曾經包含在Hadoop發行版中的專案組成(即“堆疊”)。

“我們已經有了Spark,我們已經有了S3或S3風格的儲存桶。在pub/sub中常用的Kafka、Pulsar等技術。我們有一些相對標準化的東西用於實時處理,如Flink。然後,當我們開始進入資料庫世界時,它就真的爆炸了。我們有寒武紀的大爆發。”

這是一個由Datafold釋出的開源現代資料棧圖

現在出現的現代資料棧其決定性特徵之一是能夠快速地用更新的東西取代舊的東西。“領導者應該知道,我們的技術堆疊不會再有20年的壽命了。”Anderson說,“事實上,Hadoop有20年的壽命--我們不會在其他技術上看到這一點,我認為這真的很關鍵。”

現代資料棧的各種元件在被替換之前的壽命會更短。想出管理這種變化的最佳方法將是工程師和產品開發人員的一大焦點。“如果你有100種不同的技術,而且每個人都在使用它--坦率地說,這對資料網路(data mesh)來說是一個問題。”他說。

資料觀測工具提供商Soda的執行長兼創始人Maarten Masschelein認為,現代資料棧是用一種新的原則組合在一起的。

“10年前我們對資料的處理方式是非常不同的。”他說,“例如,現代資料棧對我來說是多利益相關者,從非常技術的利益相關者到非常精通業務的利益相關者,它對每個人都有效。”

管理變化的能力,特別是在一個快節奏的環境中,是構成現代資料棧工具的一個重要方面,Masschelein說,“它受到軟體工程的影響,因此更有彈性,更快,更敏捷,”他說。“它是構成現代資料棧的各種事物的組合。但我也認為,一年後,我們會說,‘哦,是的,我們說過這個嗎?我們用過這個詞嗎?’”

ThoughtSpot聯合創始人兼執行主席Ajeet Singh列出的六條資料新規則中的第一條規則是在堆疊的每一層使用最佳產品。當然,ThoughtSpot的人認為他們的產品是資料體驗層的最佳選擇,他們在這裡與PowerBI、Looker和Tableau等公司競爭。

ThoughtSpot對現代資料棧的看法

“我們正在與現代資料棧中的幾乎所有最佳供應商合作。”Singh說,“因此,我們的策略是與其他最好的合作伙伴合作,使客戶更容易無縫地獲得完整的堆疊。”

在最近的Beyond 2022展會上,許多ThoughtSpot的客戶說他們正在使用ThoughtSpot與Snowflake或AWS資料倉儲或資料湖,以及Matillion或dbt一起用於ETL或資料轉換。

ThoughtSpot執行長Sudheesh Nair說,在構建與現代資料堆疊和現代資料生態系統中其他產品共存的產品時,遵循三個核心原則。首先,機器對機器的API體驗必須是無縫的。

“當Sean[Zinsmeister ThoughtSpot的營銷高階副總裁]展示演示時,他點選一次,dbt就進來了,搜尋就發生了,”Nair在最近的Beyond 2022會議上說。“我們正在努力,dbt也在努力,以確保它是無縫的。”

第二個原則是,客戶不能掉進兩個供應商之間的整合深淵。如果有問題,供應商必須進行溝通,以確保客戶的關切得到滿足。最後,他說,允許客戶將他們的公有云信用額度用於你的產品,會讓他們更有可能購買你的產品。

NoSQL資料庫供應商Aerospike的首席戰略官Lenley Hensarling對現代資料棧有不同的看法。他認為它是一種資料結構,在邊緣有快速和靈活的資料庫,連續地吸收、處理和移動資料

“你想在儘可能接近實時的情況下利用資料,”他說,“我們看到客戶一次又一次地把我們作為邊緣的增強和實時資料系統,然後把這些交易過濾回那些可能發生監管的地方,那些不感興趣的東西。”

然後將這些交易過濾回那些可能發生監管的地方,那些無趣的東西。

NoSQL資料庫供應商Aerospike的首席戰略官Lenley Hensarling對現代資料棧有不同的看法。他認為它是一種資料編織(data fabric),在邊緣有快速靈活的資料庫,連續地吸收、處理和移動資料。

他說:“你希望儘可能利用接近實時影像的資料。”“我們看到客戶一次又一次地把我們作為一個輔助工具和一個處於邊緣的實時資料系統,然後過濾那些交易,回到所有監管事務發生的地方,那些無趣的事情。”

Hensarling認為,實時資料儲存必須是靈活和快速的,並支援變化資料捕獲和流式資料要求。

“我們看到的是對Spark聯結器、Spark SQL、Spark Streaming、Pulsar、Kafka、JMS的需求。”他說,“這提供了人們正在構建的新結構,(以)一種新的程式風格,它是非常分解和解構的,但一直在一起工作....我們認為,擁有這種完整的結構是一個很大的勝利。”

作者:Alex Woodie

來自 “ https://www.datanami.com/2022/05/23/inside-the-mod ”,原文連結:http://blog.itpub.net/69925873/viewspace-2897999/,如需轉載,請註明出處,否則將追究法律責任。

相關文章