奈學:資料湖和資料倉儲的區別有哪些?

古月木易01發表於2020-06-28

儲存方面:資料湖中資料為非結構化的,所有資料都保持原始形式;儲存所有資料,並且僅在分析時再進行轉換。資料倉儲就是資料通常從事務系統中提取,在將資料載入到資料倉儲之前,會對資料進行清理與轉換。


資料組織形式:資料湖就是捕獲半結構化和非結構化資料。而資料倉儲則是捕獲結構化資料並將其按模式組織。


用途:資料湖的目的就是資料湖非常適合深入分析的非結構化資料。資料科學家可能會用具有預測建模和統計分析等功能的高階分析工具。而資料倉儲就是資料倉儲非常適用於月度報告等操作用途,因為它具有高度結構化。


Schema:資料湖通常在儲存資料之後定義schema,使用較少的初始工作並提供更大的靈活性。在資料倉儲中儲存資料之前定義schema,這需要你清理和規範化資料,這意味著schema的靈活性要低不少。


本文來源於:奈學開發者社群


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69976612/viewspace-2700968/,如需轉載,請註明出處,否則將追究法律責任。

相關文章