大資料常用處理框架
發展到今天,大資料處理主要分為兩類大的需求,一是批處理,一是流處理。在企業的實際業務場景當中,可能會只需要批處理或者流處理,也可能同時需要批處理和流處理,這就使得搭建大資料系統平臺的時候,需要根據具體場景來進行技術選型。
大資料處理框架,通常可以分為三類——
①批處理框架:Apache Hadoop
②流處理框架:Apache Storm、Apache Samza
③批處理+流處理框架:Apache Spark、Apache Flink
這裡我們不對各個框架做更具體的講解,而是先來理解這些不同處理模式背後的思想。
1、批處理
批處理是大資料處理當中的普遍需求,批處理主要操作大容量靜態資料集,並在計算過程完成後返回結果。鑑於這樣的處理模式,批處理有個明顯的缺陷,就是面對大規模的資料,在計算處理的效率上,不盡如人意。
目前來說,批處理在應對大量持久資料方面的表現極為出色,因此經常被用於對歷史資料進行分析。
2、流處理
批處理之後出現的另一種普遍需求,就是流處理,針對實時進入系統的資料進行計算操作,處理結果立刻可用,並會隨著新資料的抵達繼續更新。
在實時性上,流處理表現優異,但是流處理同一時間只能處理一條(真正的流處理)或很少量(微批處理,Micro-batch Processing)資料,不同記錄間只維持最少量的狀態,對硬體的要求也要更高。
3、批處理+流處理
在實際的應用當中,批處理和流處理同時存在的場景也很多,混合處理框架就旨在解決這類問題。提供一種資料處理的通用解決方案,不僅可以提供處理資料所需的方法,同時提供自己的整合項、庫、工具,可滿足圖形分析、機器學習、互動式查詢等多種場景。
大資料系統平臺的搭建,往往需要在這些開源大資料處理框架當中進行選擇,因此也就要求開發者們有相應程度的掌握。
相關文章
- 資料清洗處理-常用操作
- Spark大資料處理框架入門(單機版)Spark大資料框架
- 22個大資料開發處理框架平臺和工具大資料框架
- 流式大資料處理的三種框架:Storm,Spark和Samza大資料框架ORMSpark
- sklearn中常用資料預處理方法
- Janus:Myntra 的資料處理框架框架
- java大資料處理:如何使用Java技術實現高效的大資料處理Java大資料
- 大資料處理的基本流程大資料
- 大資料三種處理方式大資料
- 大資料處理之道書評大資料
- pandas 資料處理 一些常用操作
- 剖析大資料平臺的資料處理大資料
- 資料庫如何處理大資料訪問資料庫大資料
- 三個大資料處理框架:Storm,Spark和Samza介紹比較大資料框架ORMSpark
- 【雲端大資料實戰】大資料誤區、大資料處理步驟分析大資料
- 大資料處理平臺都有哪些?大資料
- 大資料處理系統有哪些大資料
- storm流式大資料處理流行嗎ORM大資料
- mysql大資料高併發處理MySql大資料
- 非平衡資料集的機器學習常用處理方法機器學習
- 單機每秒最多可處理10億條資料!eBay開源資料處理框架Accelerator框架
- 大資料學習之Hadoop如何高效處理大資料大資料Hadoop
- 大資料處理需留意哪些問題大資料
- 大資料處理過程是怎樣大資料
- 大資料處理流程包括哪些環節大資料
- 大資料處理的開發經驗大資料
- 資料處理的 9 大程式語言
- Google BigQuery:在雲端處理大資料Go大資料
- Python資料處理(二):處理 Excel 資料PythonExcel
- 《Storm技術內幕與大資料實踐》一1.2其他流式處理框架ORM大資料框架
- 資料處理
- 傳統的資料處理方式能否應對大資料?大資料
- 玩轉大資料系列之二:資料分析與處理大資料
- 大資料爭論:批處理與流處理的C位之戰大資料
- MySQL處理資料庫和表的常用命令MySql資料庫
- 專業人士處理大資料所需的技能大資料
- Vaex助力高效處理大規模資料集
- 大資料常見的處理方法有哪些大資料