新的Lakehouse,遲來的資料正規化轉變
我們處理資料的方式很少出現根本性的變化。例如,幾十年來行業標準的資料庫模型關係型資料庫是在1970年首次提出的。雖然多年來有許多與資料庫相關的創新,但一成不變的舊資料正規化已經被塞進了一個與過去非常不同的現代環境中。資料儲存和計算的變化擴大了資料團隊可以完成的任務和能力,但如果沒有資料正規化的轉變,資料世界將面臨同樣的核心挑戰。
資料團隊的不同部門習慣於在他們自己的領域,用自己的資料和自己的工具單獨工作。但這造成了效率低下,最終導致了企業內部的資訊差距。企業再也不能在這些孤島中運作了,企業現在意識到資料所能發揮的關鍵作用,而獲取和利用整個企業產生的資料需要將這些資訊差距降到最低。
為了充分實現資料的商業價值並釋放其潛力,需要在一個協作的環境進行資料管理。由新技術驅動的徹底的文化變革可以改變企業--將資料工程師、資料科學家、業務分析師以及其他任何依賴高質量資料的人聚集在一起,共同致力於降低成本,推動創新,並縮短產品上市時間。這種轉變需要打破資料團隊之間的障礙,並集中關注當今的資料挑戰和工具,而這種模式的轉變已經開始了。
進入Lakehouse,最近,圍繞著Lakehouse的概念有很多炒作,這是有原因的。從本質上講,它是一種新的資料管理正規化,結合了資料倉儲和資料湖的功能,改變了資料團隊共同運作的方式。這種新的架構代表了我們處理資料的方式的重大根本轉變。
Lakehouse對企業來說具有巨大的潛力,它具有處理現代分析的能力和靈活性,使企業能夠對其見解具有描述性、預測性和規範性。這種新的模式將通過解決一些因固守現狀而產生的核心挑戰推動企業走向未來。我們需要的是及時準備資料、獲得洞察力和做出變革性決策的能力;為工程師、資料科學家和商業使用者配備可以輕鬆訪問的高質量資料;通過提供一個真正的合作環境,讓資料文化蓬勃發展,將不同型別的資料工作者聚集在一起。
消除資料工程師和資料科學家之間的鴻溝
舊模式尚未解決的最普遍的挑戰之一是消除孤島,將不同型別的資料工作者聚集在一個協作環境中,建立一個繁榮的資料文化。這個痛點可能比資料質量和準備等得到的關注要少,但它可能是現代分析基礎中最重要的。
為了在現代環境中獲得成功的分析,資料工程師和資料科學家必須保持一致。但是,直到最近Lakehouse引入之前,資料團隊都在各自的領域裡工作,有自己的資料。資料工程師主要在資料倉儲中工作,他們的結構化資料就在那裡,可以用於報告、分析和商業智慧。資料科學家更喜歡資料湖,因為它能夠將結構化和非結構化的資料以原始形式結合起來,在那裡可以通過深度洞察、預測性分析、機器學習和人工智慧模式識別來尋找新的機會。
資料工程師和資料科學家之間缺乏合作,這是企業生產力和創新的一個關鍵障礙。這種分工導致了不必要的重複工作,產生了額外工作,減緩了在資料中尋找價值的能力。僅舉一例,資料科學家經常建立實驗性的資料產品,然後必須由資料工程師重建,才能在生產中使用。
Lakehouse以一種動態的方式將這兩個世界結合起來。Lakehouse既具備資料倉儲的資料結構和管理功能,又能將資料直接儲存在傳統資料湖中使用的那種低成本儲存上,Lakehouse將資料工程師和資料科學家統一到同一個系統中,使用相同的工具,成為一個真正的資料團隊。當資料團隊不再在雲倉中運作時,他們可以更快地一起工作,同時減少對資料保真度的風險。此外,有了一個統一的資料位置,團隊總是可以為他們所有的資料科學、機器學習和商業分析專案提供最完整和最新的資料。
改善資料管理
除了需要發展資料團隊結構外,收集的資料型別也在不斷變化。物聯網感測器和裝置以及視訊和音訊工具的興起,使得資料團隊有必要能夠處理不同型別的結構化、半結構化或非結構化的資料。即使是現有的資料集,隨著模式的不斷變化,每一刻都是不同的。處理所有這些不同的資料型別耗時耗力,而且成本也很高。它需要支付和管理多個資料基礎設施以及與每個基礎設施相關的運營成本。
由於Lakehouse使團隊能夠同時管理結構化和非結構化的資料,它在應對資料的新趨勢時創造了更大的彈性。Lakehouse隨著資料型別和模式的變化而變化,模糊了結構化和非結構化之間的界限,允許所有的原始資料儲存在一箇中央位置,同時在上面保持一個儲存層。資料多樣性不再是一個問題,因為企業可以管理所有的資料格式,並在這個過程中保持成本下降。
結合結構化和非結構化的資料也減少了資料丟失的可能性。當所有的資料都在一個統一的解決方案中管理時,資料恢復和高可用性就更簡單了。如今,一個強大的資料態勢已經成為提高組織整體準備和彈性的必要條件。通過採用Lakehouse架構,企業正在為未來的資料需求做好準備。
從資料中快速獲取價值
Lakehouse正規化不僅解決了資料的儲存和協作問題,還帶來了更有利的洞察結果。現代資料團隊希望通過描述性報告,甚至是預測未來的預測性報告,來描述當前狀態。為企業提供可能的結果和下一步建議的規範性報告正在成為最終目標。
在Lakehouse,資料和資料實踐可以在不同的團隊之間共享,有可能建立高質量的資料和資料科學的敏捷性,這對規範性分析至關重要。隨著資料工程師和資料科學家越來越快地訪問共享的、安全的和連線的資料,企業可以更好地配合現代分析,更快地獲得洞察。
更快地獲得洞察力也意味著從資料科學實驗到生產的時間更快,這是企業保持敏捷性的一個必要條件。對於想要從資料科學家那裡獲得價值的企業來說,對開發和產品化速度的需求尤為迫切。今天的資料科學家把大部分時間花在準備資料上,而不是做他們受僱做的事情:對資料進行建模並從中獲得洞察力。速度和協作是企業在資料旅程中希望成熟的商業報告和分析實踐的重要成分。
舊的資料正規化也不再適用於可以有巨大回報的機器學習或人工智慧操作,在以前這些大多被視為科幻小說的概念。由於資料的數量和演變的多樣化,一切正成為現實。
隨著資料的數量和多樣性迅速增加,人類已經不可能自己分析所有的資料。企業正在轉向機器學習和人工智慧,以跟上時代的發展。對於資料科學家來說,要跟上日益增長的需求和需要分析的資料速度,Lakehouse提供了一個 “資料遊樂場”,使他們能夠訪問大量的結構化和非結構化資料,並建立先進的分析模型。
商業世界的發展速度比以往任何時候都快,如果企業想要跟上步伐,他們就需要拋棄那些拖累他們的舊的資料思維方式。資料團隊在從海量資料中尋求價值時面對的障礙越少,他們就能更快、更靈活應對市場。現在是轉變模式以適應這些現代資料需求的時候了,而Lakehouse提供了新的願景。Lakehouse的大規模採用和成功之路,以及真正的創新之路,在於為那些每天從事資料工作並從中受益的人培養一種真正的資料文化。Lakehouse提供了一個統一環境的基礎,整個組織可以更有效地使用資料並釋放其真正的商業價值。
作者:Matillion產品副總裁Dave Langton
來源:
來自 “ https://www.dbta.com/BigDataQuarterly/Articles/The ”,原文連結:http://blog.itpub.net/69925873/viewspace-2857403/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 正規化(Normal Form)是資料庫設計中的概念。新的正規化(paradigm)ORM資料庫
- Halodoc的資料平臺轉型之Lakehouse架構架構
- 前端資料正規化化前端
- ChatGPT研究報告:AIGC帶來新一輪正規化轉移ChatGPTAIGC
- 轉化率模型之轉化資料延遲模型
- 資料庫中的正規化和反正規化詳解!資料庫
- 啥是資料庫正規化資料庫
- 資料庫三正規化資料庫
- 資料庫 三大正規化資料庫
- 資料庫三大正規化資料庫
- Java學習筆記:資料庫中的正規化和反正規化Java筆記資料庫
- 資料庫設計之三正規化的的理解資料庫
- 八、資料庫的歸約,三大正規化(規範資料庫設計)資料庫
- 資料庫正規化與例項資料庫
- 資料庫——三正規化理解資料庫
- 資料庫三大正規化 Mysql資料庫MySql
- 【資料庫】關係模式的正規化的簡明判斷資料庫模式
- 盛名一時的BERT哪去了?這個問題的答案昭示了LLM正規化的轉變
- 資料庫-三正規化優化與不推薦使用外來鍵資料庫優化
- 資料庫設計三正規化資料庫
- Ocient報告:從大資料到超大規模資料集的轉變大資料
- Swagger3.0新版帶來的新變化Swagger
- 關聯式資料庫的正規化(Normal Form)知識點資料庫ORM
- 常用有效的正規表示式【轉】
- 資料庫學習(一)三正規化資料庫
- 資料庫表設計三正規化資料庫
- Web3是一個新的計算正規化? - GreylockWeb
- 正規表示式需要轉義的字元字元
- 新“石油”的蛻變——資料要素市場化萌芽待發
- 平臺幣轉公鏈,CoinEx也要正規化轉移?
- 什麼是資料湖屋Lakehouse? -DZone大資料大資料
- 遲來的假期
- 資料庫系統------函式依賴與正規化資料庫函式
- 你還記得資料庫三正規化嗎?資料庫
- 關係型資料庫設計三大正規化資料庫
- 匹配linux資料夾路徑的正規表示式Linux
- 從敘事批評到算學批評的正規化轉移
- 用OMF來簡化資料庫管理(轉)資料庫