雲端計算成為資料倉儲的新重心

大雄45發表於2021-02-06
導讀 調研機構IDG公司最近釋出的一份調查報告表明,雖然組織的資料向雲平臺的大規模遷移並不是從2020年開始的,但在這一年中得以快速發展。絕大多陣列織計劃在2021年擴大對雲端計算資料倉儲和資料湖的投資。然而,圍繞資料管理和ETL的許多問題仍然存在。

雲端計算成為資料倉儲的新重心雲端計算成為資料倉儲的新重心

調查發現,77%的IT決策者計劃在未來6到12個月內遷移到雲端計算資料倉儲或擴充套件現有的雲端計算資料倉儲。另有21%的IT決策者計劃在未來24個月擴充套件其雲資料倉儲。只有1%的IT決策者表示,他們沒有遷移或擴充套件雲資料倉儲的計劃。

這些調查資料非常突出,特別是考慮到IDG公司的調查參與者中只有38%(他們是商業智慧、分析或資料科學領域的主管和更高階別的決策者)擁有云計算資料倉儲。調查發現,30%的組織正在執行內部部署的資料倉儲,而23%的組織使用非雲資料倉儲。

顯然,在2021年的資料分析計劃中,雲端計算對各種規模的組織都有重要影響。例如Snowflake、AWS、Microsoft Azure、Google Cloud和Databrickss提供的雲端計算資料倉儲正在搶佔市場份額。除了這些頂級的雲端計算資料倉儲供應商之外,大多數為內部部署開發資料倉儲的供應商在這一方面也提供了類似的產品。

根據ETL供應商Matillion公司委託IDG公司進行的調查,儘管雲端計算資料倉儲顯然正在快速增長,但不到一半的使用者計劃使用雲端計算資料倉儲。

IDG調查表明雲資料倉儲部署正在增長

調查表明,57%的組織將採用內部部署和雲端計算資料倉儲相結合的資料管理策略,22%的組織採用多雲資料倉儲的策略。在採用雲資料倉儲策略的公司中,只有21%的組織使用單一的雲平臺。

這項調查在資料湖方面也有類似的故事,資料湖是一個無限可擴充套件且價格低廉的資料儲存,在過去十年中已經接替了Hadoop的職責。IDG公司的調查發現,雖然目前只有16%的組織正在使用資料湖,但高達56%的組織表示在將來使用資料湖,而另外26%的組織正在考慮使用資料湖。只有2%的組織表示並未考慮使用資料湖。

儘管很多組織正在將大量資料遷移到各種雲端儲存庫,但不應將雲端計算技術視為應對所有資料管理挑戰的靈丹妙藥。IDG公司的調查報告顯示,資料分析從業者需要一週的時間才能得到一個給定的資料集來進行分析。總的來說,準備和彙總資料進行分析需要花費將近一半的時間(45%),另外30%的時間用於探索和訓練大型模型。只有25%的時間用於處理部署到生產中的模型。

Matillion公司產品總監David Langton對原有分析陷阱正在增長並不感到驚訝。他說:“有很多原因使這種問題難以解決。首先也是最重要的一點是,組織所能生成的最有趣的分析和報告並不是來自單一的資料來源,必須結合起來。”

他表示,雲端計算資料倉儲是將有趣的資料組合在一起,從而為使用者帶來有利可圖的見解。他說,一些客戶具有在內部部署設施進行這一操作的經驗,並且只是在利用雲端計算資料倉儲提供的規模,而其他一些客戶現在才開始參與其中。

Langton說,“我們過去經常在內部部署設施做所有這類事情。我們現在正在重新構想、重新配置工具,並將大量資料移動到雲平臺中。有一些客戶對需要達到什麼目標,進行現代化改造並以新的方式來做到這一點很瞭解。但也有很多新客戶從未做過。”

他表示,客戶選擇在ETL/ELT工具上進行大量選擇,以選擇在雲端儲存庫中移動和轉換其資料。他注意到最近出現的一個趨勢,即供應商將主要專注於提取和載入,而將轉換留給資料倉儲供應商。一些ETL/ELT供應商也支援轉換,但僅提供通用轉換。

在Matillion公司的案例中,該公司旨在提供功能齊全的ETL工具,該工具不僅可以提取和載入資料,而且還支援針對各種不同的內部部署和雲端計算資料倉儲系統的資料庫內轉換。他表示,即保持靈活性使其能夠跨多個資料目的使用許多不同的資料型別,是Matillion公司提供的產品的重要價值。

Langton說,“對我們來說,這是一個與眾不同的地方。許多ETL工具提供商都表示,具有一個讀取資料和寫入資料的標準介面卡,並且中間是我們的轉換邏輯,因此獲得的好處是隻需要編寫一次轉換邏輯。我們為支援的每個目標系統編寫轉換邏輯,以對其進行最佳化。因此,我們將在Snowflake上以首選方式進行操作,或者在Redshift上以首選方式進行操作,而不是將它們全部視為黑盒,並且它們的工作原理都是相同的。”

由於採取許多不同的方法,因此靈活性很重要。一些資料倉儲使用一種讀模式方法(Hadoop就是這樣設計的),而另一些則在資料寫入資料庫時強制使用一種模式。事實上,許多雲端計算資料倉儲都配備了查詢處理功能,允許它們查詢駐留在雲端計算資料湖中的資料,這也加劇了混淆。支援JSON資料型別的各種方法也是如此,在使用SQL語言查詢JSON資料型別之前,通常必須將其扁平化。

總體而言,雲端計算分析中的工具和技術已經得到了極大的改進,隨著客戶發現適合他們的方法,這推動了實驗的發展。Langton表示,在中間使用ETL/ELT工具定義資料的客戶具有一個優勢,即可以輕鬆地更換資料倉儲。

他說:“我們越來越多地看到人們在成為客戶後遷移和嘗試不同的資料倉儲,並希望嘗試採用另一個資料倉儲。顯然,我們有辦法幫助遷移。但這確實表明組織已經全力以赴,在這些決策上進行了很大的投入,希望在幾年之內可以更新並嘗試新的解決方案。”


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69955379/viewspace-2756567/,如需轉載,請註明出處,否則將追究法律責任。

相關文章