大資料分析處理框架——離線分析(hive,pig,spark)、近似實時分析(Impala)和實時分析(storm、sparkstreaming)
大資料分析處理架構圖
資料來源: 除該種方法之外,還可以分為離線資料、近似實時資料和實時資料。按照圖中的分類其實就是說明了資料儲存的結構,而特別要說的是流資料,它的核心就是資料的連續性和快速分析性;
計算層: 記憶體計算中的Spark是UC Berkeley的最新作品,思路是利用叢集中的所有記憶體將要處理的資料載入其中,省掉很多I/O開銷和硬碟拖累,從而加快計算。而Impala思想來源於Google Dremel,充分利用分散式的叢集和高效儲存方式來加快大資料集上的查詢速度,這也就是我上面說到的近似實時查詢;底層的檔案系統當然是HDFS獨大,也就是Hadoop的底層儲存,現在大資料的技術除了微軟系的意外,基本都是HDFS作為底層的儲存技術。上層的YARN就是MapReduce的第二版,和在一起就是Hadoop最新版本。基於之上的應用有Hive,Pig Latin,這兩個是利用了SQL的思想來查詢Hadoop上的資料。
本文轉自張昺華-sky部落格園部落格,原文連結:http://www.cnblogs.com/bonelee/p/6351722.html,如需轉載請自行聯絡原作者
相關文章
- 大資料6.1 - 實時分析(storm和kafka)大資料ORMKafka
- 大資料5.1 - hive離線分析大資料Hive
- Flume+Spark+Hive+Spark SQL離線分析系統SparkHiveSQL
- 實時計算無線資料分析
- 網際網路大資料日誌收集離線實時分析實戰案例大資料
- 超3萬億資料實時分析,JCHDB助力海量資料處理
- Gartner:2013年大資料真諦:實時分析與批量處理大資料
- 實時資料分析Hummingbird
- 七牛大資料平臺的實時資料分析實戰大資料
- 流式大資料處理的三種框架:Storm,Spark和Samza大資料框架ORMSpark
- 騰訊雲EMR大資料實時OLAP分析案例解析大資料
- 利用淘寶/天貓API實現商品資料的實時獲取、處理與分析API
- Druid:實時分析資料儲存UI
- tiktok實時熱點資料分析
- 基於雲原生的大資料實時分析方案實踐大資料
- 使用Storm、Kafka和ElasticSearch處理實時資料 -javacodegeeksORMKafkaElasticsearchJava
- 如果通過流資料實現實時分析?
- Hadoop離線資料分析平臺實戰——340瀏覽器PV分析Hadoop瀏覽器
- 《Hadoop+Spark大資料分析實戰》簡介HadoopSpark大資料
- 《Storm實時資料處理》一1.1 簡介ORM
- 資料分析 | Numpy實戰(一) - 分析某單車騎行時間
- 實時計算,流資料處理系統簡介與簡單分析
- 【雲端大資料實戰】大資料誤區、大資料處理步驟分析大資料
- 使用 Spark 進行微服務的實時效能分析Spark微服務
- 基於 Spark 的資料分析實踐Spark
- 三分鐘瞭解實時流式大資料分析大資料
- 實時技術的榮光,微軟釋出實時大資料分析產品!微軟大資料
- 基於Spark的大資料實時處理開課Spark大資料
- SparkStreaming實時流處理學習Spark
- 三個大資料處理框架:Storm,Spark和Samza介紹比較大資料框架ORMSpark
- 大資料分析筆記 (7) - 時間序列分析(Time Series Analysis)大資料筆記
- 大資料實踐解析(下):Spark的讀寫流程分析大資料Spark
- HBS:實時分析報告
- CDN日誌實時分析
- 實戰案例:醫療臨床大資料實時流日誌分析大資料
- 上海寶付大資料分析storm結合大資料ORM
- 資料分析--資料預處理
- 基於python的大資料分析-資料處理(程式碼實戰)Python大資料