據IDC報告顯示,Hadoop MapReduce的2011年市場份額為7700萬美元,而到2016年市場份額將會有60.2%的增長達到8.13億美元
現今企業資料倉儲和關係型資料庫擅長處理結構化資料,並且可以儲存大量的資料。但成本上有些昂貴。這種對資料的要求限制了可處理的資料種類,同時這種慣性所帶的缺點還影響到資料倉儲在面對海量異構資料時對於敏捷的探索。這通常意味著有價值的資料來源在組織內從未被挖掘。而Hadoop恰好可以解決以上問題。
Hadoop是一個基於Java的分散式密集資料處理和資料分析的軟體框架。Hadoop在很大程度上是受Google在2004年白皮書中闡述的MapReduce的技術啟發。MapReduce工作原理是將任務分解為成百上千塊的小任務,然後傳送到計算機叢集中。每臺計算機再傳送會自己那部分資訊,MapReduce則迅速整合這些反饋並形成答案。
基於Java語言構建的Hadoop框架實際上一種分散式處理大資料平臺,其包括軟體和眾多子專案。在近十年中Hadoop已成為大資料革命的中心。MapReduce作為Hadoop的核心是一種處理大型及超大型資料集(TB級別的資料。包括網路點選產生的流資料、日誌檔案、社交網路等所帶來的資料)並生成相關的執行的程式設計模型。其主要思想是從函數語言程式設計語言借鑑而來的,同時也包含了從向量程式語言借鑑的特性。
Hadoop的擴充套件性非常優秀,Hadoop可處理分佈在數以千計的低成本X86伺服器計算節點中的大型資料。同時由於眾所周知的摩爾定律,記憶體和磁碟的容量也在不斷增長。Hadoop對硬體的支援也在加強,現在每個節點可部署16核的處理器,12TB甚至24TB磁碟。
Hadoop的生態系統構建於Linux生態系統並發展。社交媒體和基於Web的應用驅動了Hadoop的發展,而Hadoop的興起也來帶了一些問題。其中之一就是Hadoop從業人員非常缺失。
如今,MIT已經開始要求計算機系的學生使用Hadoop MapReduce構建程式。而加州伯克利分校更是使用Hadoop致力於資料科學領域的研究。相關的Hadoop培訓的需求在成倍增長,企業開始將收集的資訊細化(客戶資訊、交易資訊),企業都在爭先恐後的尋找縮減成本的方法。
Hadoop開發培訓需要被培訓人具備Java程式設計經驗,而對於Hadoop管理培訓而言則需要被培訓人具備Linux或Unix的管理經驗。IT人員爭先恐後參加Hadoop認證培訓無非是想獲取更高的薪資。