軟考論文論湖倉一體架構及其應用

tuqunfu發表於2024-10-20

一、論文論據

資料倉儲是從各種外部資料來源、各種內部應用程式中定期提取資料的大型儲存庫。資料湖是一個以原始格式儲存資料的平臺,不需要定義資料按原樣儲存資料,而無需事先對資料進行結構化處理或者定義資料模式,資料湖倉雖然適合資料的儲存,但由於不支援事務、缺乏一致性/隔離性、不保證執行資料質量等。因此資料湖不適合承載資料讀寫訪問,批處理、流處理等業務。又由於資料湖缺乏結構性,容易程式設計資料沼澤。

湖倉一體(Lakehouse)結合了資料湖和資料倉儲的優勢,它構建在資料湖低成本的資料儲存架構上,又繼承了資料湖倉的資料處理和管理能力。

可以選擇以下四種資料湖倉一體的特徵,進行詳細的特點闡述:

湖倉一體的特徵:

1、事務支援:對事務的ACID支援,確保資料併發訪問的一致性,正確性。可以在不破壞資料完整性的前提下,支援併發的讀寫事務。

2、資料的模型化和資料治理:支援各類資料模型的實現和轉變,支援DW模式架構。

3、報表以及分析應用的支援,Lakehouse所儲存的資料經過了清理和整合的過程,可以用於加速分析。相比於資料倉儲,Lakehouse儲存的資料更多,資料時效性更高,可以顯著提升報表質量。

4、資料型別擴充套件:相比於資料倉儲僅支援結構化資料,Lakehouse結構化可以支援結構化和非結構化資料,包括影像、影片、音訊、文字。

5、儲存和計算分離,降低儲存成本:使用低成本硬體與叢集技術架構資料湖。提供廉價的分離式儲存,湖倉一體延續了資料湖的優勢,採取了存算分離的架構,支援更大的併發量和資料規模。

6、開發性:資料湖倉採取了開源元件,且採用了Parquet/ORC等開放相容的底層儲存格式,因此,不同儲存引擎、語言都可以運算元據湖倉。

7、減少資料的冗餘:如果同時維護一個資料湖和多個資料倉儲,往往會造成巨大的資料冗餘,而使用Lakehouse,可以減少資料的重複性。

8、避免資料沼澤:人們傾向於資料湖中丟資料,而不考慮治理,長此以往資料湖會變成為資料沼澤,引入資料湖倉可以治理海量資料,有效提升分析資料的時效性。

相關文章