知識篇：新一代的資料處理平臺Hadoop簡介

shenmanli發表於2018-03-29

原文網址 : https://blog.csdn.net/tcict/article/details/79742465

Hadoop

在雲端計算和大資料大行其道的今天，Hadoop及其相關技術起到了非常重要的作用，是這個時代不容忽視的一個技術平臺。事實上，由於其開源、低成本和和前所未有的擴充套件性，Hadoop正成為新一代的資料處理平臺。

Hadoop是基於Java語言構建的一套分散式資料處理框架，從其歷史發展角度我們就可以看出，Hadoop一誕生，就具備高貴的血統，發展順風順水：

2004年，Google發表論文，向全世界介紹了MapReduce
2005年初，為了支援Nutch搜尋引擎專案，Nutch的開發者基於Google釋出的MapReduce報告，在Nutch上開發了一個可工作的MapReduce應用
2005年中，所有主要的Nutch演算法被移植到MapReduce和NDFS(NutchDistributedFileSystem)環境來執行
2006年2月，ApacheHadoop專案正式啟動以支援MapReduce和HDFS的獨立發展
2007年，百度開始使用Hadoop做離線處理，目前差不多80%的Hadoop叢集用作日誌處理
2008年，淘寶開始投入研究基於Hadoop的系統–雲梯，並將其用於處理電子商務相關資料。雲梯1的總容量大概為9.3PB，包含了1100臺機器，每天處理約18000道作業，掃描500TB資料
2008年1月，Hadoop成為Apache頂級專案
2008年7月，Hadoop打破1TB資料排序基準測試記錄。Yahoo的一個Hadoop叢集用209秒完成1TB資料的排序，比上一年的紀錄保持者保持的297秒快了將近90秒

……

很多人開始接觸Hadoop時，都以為這是一個專案，其實Hadoop除了核心的MapReduce和HDFS之外，還包含了眾多的子專案，換句話說，Hadoop已經形成了一個豐富的技術生態圈：

隨著網際網路的飛速發展，大量資料的儲存和分析遇到瓶頸，磁碟容量的增長遠遠大於磁碟讀取速度，1TB的磁碟，資料傳輸速度100MB/s，讀一遍2.5H，寫資料就別提了，心拔涼拔涼的（當然SSD在生產環境的實際應用，大大緩解了這一窘境）。

資料量的增長在網際網路應用中體現的非常明顯，好的網際網路應用動輒就有上千萬的使用者，無論是資料的容量、壓力都與日俱增。

另外在企業應用層面，很多大中型企業，資訊化進行了十幾年，企業內部積累了大量的非結構化資料，各種型別的檔案需要儲存、備份、分析、展示，苦於沒有很好的辦法進行資料處理。

那麼如何解決這樣的問題，技術牛人自然有辦法，比如磁碟資料的並行讀寫，資料分塊，分散式檔案系統，冗餘資料，MapReduce演算法等等，最後Hadoop等類似的技術應運而生。於是我等草民有福了。

不是有那麼一句話麼，大資料勝於好演算法，如果資料足夠多，可能產生出意想之外的應用，看看現在Facebook、Twitter、微博相關的衍生應用就知道了。另外，無論演算法好壞，更多的資料總能帶了來更好的推薦效果，這也是顯而易見。

所以，無論雲端計算和大資料口號喊的多麼虛頭八腦，但Hadoop都是一門非常務實的技術，無論你身在網際網路企業還是傳統軟體公司，都應該學習和了解這門技術。

Hadoop的部署提供三種模式，本地模式、偽分佈模式和全分佈模式，建議大家採用第三種進行實踐，這樣對系統用法的理解更深入一些。

這就需要你至少要兩臺機器進行叢集，比較好的方式是使用虛擬機器。Hadoop原生支援Unix/Linux，你要是想在Windows上玩，還需要裝模擬環境cygwin。

這時候就體現出Mac使用者的優勢了，我是採用Mac做Master，起兩臺虛擬Linux做Slave，SSD+8G記憶體，毫無壓力。這樣做的好處其實在Unix程式設計思想這部書中也提到過，就是用最小工作環境達到最大的工作範圍。

Hadoop大資料分散式處理系統簡介
2021-12-22
Hadoop大資料分散式
hadoop大資料平臺安全基礎知識入門
2019-08-05
Hadoop大資料
大資料和Hadoop平臺介紹
2020-11-22
大資料Hadoop
MT2503晶片處理器平臺簡介
2018-09-17
晶片
資料Redpanda平臺簡介
2024-05-19
剖析大資料平臺的資料處理
2020-04-04
大資料
大資料處理平臺都有哪些？
2019-03-04
大資料
大資料平臺之大資料處理系統的架構
2024-01-29
大資料架構
最全MTK處理器型號/聯發科晶片平臺資料介紹
2018-09-26
晶片
RocketMQ Connect 構建流式資料處理平臺
2022-12-16
MQ
Apache Wayang ：跨平臺資料處理系統
2022-03-18
Apache
科研資料庫備案平臺簡介（RDD）
2021-11-30
資料庫
《Hadoop大資料分析技術》簡介
2022-11-25
Hadoop大資料
大資料平臺Hadoop叢集搭建
2020-09-28
大資料Hadoop
Hadoop大資料平臺之HBase部署
2020-11-24
Hadoop大資料
Hadoop大資料平臺之Kafka部署
2020-11-24
Hadoop大資料Kafka
有必要了解的大資料知識(二) Hadoop
2021-03-17
大資料Hadoop
影象識別及處理相關資料集介紹
2019-03-09
資料庫理論知識
2022-06-14
資料庫
簡述知識付費平臺搭建過程
2021-09-29
MT2601晶片處理器,MT2601穿戴平臺技術資料介紹
2018-11-01
晶片
資料融合平臺，資料服務一站式處理
2021-11-05
海量資料處理問題知識點複習手冊
2019-03-04
資料庫安全知識介紹
2019-04-01
資料庫
Hadoop大資料平臺有何優勢？
2023-10-20
Hadoop大資料
Hadoop 簡介
2020-09-08
Hadoop
Hadoop簡介！
2019-07-09
Hadoop
Hadoop - 企業級大資料管理平臺CDH(介紹和準備工作)
2019-03-14
Hadoop大資料
分享Hadoop處理大資料工具及優勢
2018-12-13
Hadoop大資料
使用記憶體NewSQL資料平臺來處理實時資料流的三個好處
2021-01-20
記憶體SQL
大資料學習之Hadoop如何高效處理大資料
2018-09-20
大資料Hadoop
《Hadoop+Spark大資料分析實戰》簡介
2022-07-27
HadoopSpark大資料
Infrastructure 知識: dnf對module的處理
2022-04-26
ASTStruct
處理器基礎知識
2022-11-24
CSS基礎知識簡介
2020-04-06
CSS
22個大資料開發處理框架平臺和工具
2019-04-21
大資料框架
基於 RocketMQ Connect 構建資料流轉處理平臺
2023-03-17
MQ
資料庫基礎知識介紹！
2022-04-18
資料庫

知識篇：新一代的資料處理平臺Hadoop簡介

相關文章