大資料分析處理框架——離線分析(hive,pig,spark)、近似實時分析(Impala)和實時分析(storm、sparkstreaming)

桃子紅了吶發表於2017-11-15


大資料分析處理架構圖
資料來源: 除該種方法之外,還可以分為離線資料、近似實時資料和實時資料。按照圖中的分類其實就是說明了資料儲存的結構,而特別要說的是流資料,它的核心就是資料的連續性和快速分析性;
計算層: 記憶體計算中的Spark是UC Berkeley的最新作品,思路是利用叢集中的所有記憶體將要處理的資料載入其中,省掉很多I/O開銷和硬碟拖累,從而加快計算。而Impala思想來源於Google Dremel,充分利用分散式的叢集和高效儲存方式來加快大資料集上的查詢速度,這也就是我上面說到的近似實時查詢;底層的檔案系統當然是HDFS獨大,也就是Hadoop的底層儲存,現在大資料的技術除了微軟系的意外,基本都是HDFS作為底層的儲存技術。上層的YARN就是MapReduce的第二版,和在一起就是Hadoop最新版本。基於之上的應用有Hive,Pig Latin,這兩個是利用了SQL的思想來查詢Hadoop上的資料。

本文轉自張昺華-sky部落格園部落格,原文連結:http://www.cnblogs.com/bonelee/p/6351722.html,如需轉載請自行聯絡原作者


相關文章