知識篇:新一代的資料處理平臺Hadoop簡介
在雲端計算和大資料大行其道的今天,Hadoop及其相關技術起到了非常重要的作用,是這個時代不容忽視的一個技術平臺。事實上,由於其開源、低成本和和前所未有的擴充套件性,Hadoop正成為新一代的資料處理平臺。
Hadoop是基於Java語言構建的一套分散式資料處理框架,從其歷史發展角度我們就可以看出,Hadoop一誕生,就具備高貴的血統,發展順風順水:
2004年,Google發表論文,向全世界介紹了MapReduce
2005年初,為了支援Nutch搜尋引擎專案,Nutch的開發者基於Google釋出的MapReduce報告,在Nutch上開發了一個可工作的MapReduce應用
2005年中,所有主要的Nutch演算法被移植到MapReduce和NDFS(NutchDistributedFileSystem)環境來執行
2006年2月,ApacheHadoop專案正式啟動以支援MapReduce和HDFS的獨立發展
2007年,百度開始使用Hadoop做離線處理,目前差不多80%的Hadoop叢集用作日誌處理
2008年,淘寶開始投入研究基於Hadoop的系統–雲梯,並將其用於處理電子商務相關資料。雲梯1的總容量大概為9.3PB,包含了1100臺機器,每天處理約18000道作業,掃描500TB資料
2008年1月,Hadoop成為Apache頂級專案
2008年7月,Hadoop打破1TB資料排序基準測試記錄。Yahoo的一個Hadoop叢集用209秒完成1TB資料的排序,比上一年的紀錄保持者保持的297秒快了將近90秒
……
很多人開始接觸Hadoop時,都以為這是一個專案,其實Hadoop除了核心的MapReduce和HDFS之外,還包含了眾多的子專案,換句話說,Hadoop已經形成了一個豐富的技術生態圈:
隨著網際網路的飛速發展,大量資料的儲存和分析遇到瓶頸,磁碟容量的增長遠遠大於磁碟讀取速度,1TB的磁碟,資料傳輸速度100MB/s,讀一遍2.5H,寫資料就別提了,心拔涼拔涼的(當然SSD在生產環境的實際應用,大大緩解了這一窘境)。
資料量的增長在網際網路應用中體現的非常明顯,好的網際網路應用動輒就有上千萬的使用者,無論是資料的容量、壓力都與日俱增。
另外在企業應用層面,很多大中型企業,資訊化進行了十幾年,企業內部積累了大量的非結構化資料,各種型別的檔案需要儲存、備份、分析、展示,苦於沒有很好的辦法進行資料處理。
那麼如何解決這樣的問題,技術牛人自然有辦法,比如磁碟資料的並行讀寫,資料分塊,分散式檔案系統,冗餘資料,MapReduce演算法等等,最後Hadoop等類似的技術應運而生。於是我等草民有福了。
不是有那麼一句話麼,大資料勝於好演算法,如果資料足夠多,可能產生出意想之外的應用,看看現在Facebook、Twitter、微博相關的衍生應用就知道了。另外,無論演算法好壞,更多的資料總能帶了來更好的推薦效果,這也是顯而易見。
所以,無論雲端計算和大資料口號喊的多麼虛頭八腦,但Hadoop都是一門非常務實的技術,無論你身在網際網路企業還是傳統軟體公司,都應該學習和了解這門技術。
Hadoop的部署提供三種模式,本地模式、偽分佈模式和全分佈模式,建議大家採用第三種進行實踐,這樣對系統用法的理解更深入一些。
這就需要你至少要兩臺機器進行叢集,比較好的方式是使用虛擬機器。Hadoop原生支援Unix/Linux,你要是想在Windows上玩,還需要裝模擬環境cygwin。
這時候就體現出Mac使用者的優勢了,我是採用Mac做Master,起兩臺虛擬Linux做Slave,SSD+8G記憶體,毫無壓力。這樣做的好處其實在Unix程式設計思想這部書中也提到過,就是用最小工作環境達到最大的工作範圍。
相關文章
- Hadoop大資料分散式處理系統簡介Hadoop大資料分散式
- hadoop大資料平臺安全基礎知識入門Hadoop大資料
- 大資料和Hadoop平臺介紹大資料Hadoop
- MT2503晶片處理器平臺簡介晶片
- 資料Redpanda平臺簡介
- 剖析大資料平臺的資料處理大資料
- 大資料處理平臺都有哪些?大資料
- 大資料平臺之大資料處理系統的架構大資料架構
- 最全MTK處理器型號/聯發科晶片平臺資料介紹晶片
- RocketMQ Connect 構建流式資料處理平臺MQ
- Apache Wayang :跨平臺資料處理系統Apache
- 科研資料庫備案平臺簡介(RDD)資料庫
- 《Hadoop大資料分析技術》簡介Hadoop大資料
- 大資料平臺Hadoop叢集搭建大資料Hadoop
- Hadoop大資料平臺之HBase部署Hadoop大資料
- Hadoop大資料平臺之Kafka部署Hadoop大資料Kafka
- 有必要了解的大資料知識(二) Hadoop大資料Hadoop
- 影象識別及處理相關資料集介紹
- 資料庫理論知識資料庫
- 簡述知識付費平臺搭建過程
- MT2601晶片處理器,MT2601穿戴平臺技術資料介紹晶片
- 資料融合平臺,資料服務一站式處理
- 海量資料處理問題知識點複習手冊
- Hadoop大資料平臺有何優勢?Hadoop大資料
- 資料庫安全知識介紹資料庫
- Hadoop 簡介Hadoop
- Hadoop簡介!Hadoop
- Hadoop - 企業級大資料管理平臺CDH(介紹和準備工作)Hadoop大資料
- 分享Hadoop處理大資料工具及優勢Hadoop大資料
- 使用記憶體NewSQL資料平臺來處理實時資料流的三個好處記憶體SQL
- 大資料學習之Hadoop如何高效處理大資料大資料Hadoop
- 《Hadoop+Spark大資料分析實戰》簡介HadoopSpark大資料
- Infrastructure 知識: dnf對module的處理ASTStruct
- 處理器基礎知識
- CSS基礎知識簡介CSS
- 22個大資料開發處理框架平臺和工具大資料框架
- 基於 RocketMQ Connect 構建資料流轉處理平臺MQ
- 資料庫基礎知識介紹!資料庫