奈學:資料湖有哪些缺點?

奈學教育發表於2020-06-28

資料湖本身是一箇中心化的儲存,能夠儲存任意規模的結構化與非結構化資料。資料湖相比資料倉儲有很多的優勢,但大多是在理想狀態下的,一旦執行起來還有很多技術挑戰。


(一)資料湖的資料可能並不會真正做到實時。在業務環境下,如果把所有資料都放到資料湖裡,那麼從資料湖直接呼叫資料的過程可能比原來資料倉儲更慢,因為從資料湖中提取出來的資料,依然要經過清洗實現標準化後才能更好的利用。具體能否達到需求的低時延效果,還要根據具體應用場景來進行判斷。


(二)把所有的原始資料都放到資料湖,可能會提升資料的使用難度。對於大型企業而言,業務內容豐富,作業系統繁雜,資料使用者往往期望所有的資料都能平民化,就像資料倉儲提供的那種經過了精心處理的資料,能夠輕鬆排程和使用來實現對業務的指導。如果是資料湖提供的原始化資料,其本身是很複雜的,資料專家進行理解和處理時或許難度適中,但大多數的平民使用者能否消化、理解並利用這些資料,將會是一個巨大的疑問。


(三)資料治理問題。資料倉儲裡的資料是經過整理、清晰易懂的。但資料湖的概念是不經處理直接進行堆砌,那麼資料湖就有可能會變成“資料沼澤”,篩選難度會變大。當然,資料湖的優勢就是資料可以先作為資產存放起來,問題就在於如何把這些資料在業務中利用起來。當部署了資料湖之後,資料治理問題將會接踵而至,比如從資料湖到資料池塘,如何將資料進行分流、池塘的資料如何進行整理等。


本文來源於:奈學開發者社群


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69976011/viewspace-2700974/,如需轉載,請註明出處,否則將追究法律責任。

相關文章