什麼是Hadoop?

出版圈郭志敏發表於2011-09-01

  按照正式的定義,Hadoop是一個開源的框架,可編寫和執行分散式應用處理大規模資料。分散式計算是一個寬泛並且不斷變化的領域,但Hadoop與眾不同之處在於以下幾點。

   方便——Hadoop執行在由一般商用機器構成的大型叢集上,或者如亞馬遜彈性計算雲(EC2)等雲端計算服務之上。

   健壯——Hadoop致力於在一般商用硬體上執行,其架構假設硬體會頻繁地出現失效。它可以從容地處理大多數此類故障。

   可擴充套件——Hadoop通過增加叢集節點,可以線性地擴充套件以處理更大的資料集。

   簡單——Hadoop允許使用者快速編寫出高效的並行程式碼。

  Hadoop的方便和簡單讓其在編寫和執行大型分散式程式方面佔盡優勢。即使是在校的大學生也可以快速、廉價地建立自己的Hadoop叢集。另一方面,它的健壯性和可擴充套件性又使它勝任雅虎和Facebook最嚴苛的工作。這些特性使Hadoop在學術界和工業界都大受歡迎。

  圖1-1解釋瞭如何與Hadoop叢集互動。Hadoop叢集是用網路連線在同一地點的一組通用機器。資料儲存和處理都發生在這個機器“雲”中 。不同的使用者可以從獨立的客戶端提交計算“作業”到Hadoop,這些客戶端可以是遠離Hadoop叢集的個人桌上型電腦。

  並非所有分散式系統的構建都如圖1-1所示的一樣。下面,我們簡要介紹一下其他分散式系統,以便更好地展現Hadoop所依據的設計理念。

enter image description here

摘自:《Hadoop實戰

下一篇:瞭解分散式系統和Hadoop

相關文章