快速構建Hadoop的入門練手環境

banq發表於2022-01-26

本文提供了一種快速上手Hadoop的方法:

第一步是找到一個沙盒或開發環境,在那裡你可以在沒有太多開銷和風險的情況下玩轉技術。
對我來說,最好的方法是使用我自己的膝上型電腦作為測試,但我也知道一些開發者喜歡使用亞馬遜EC2例項(例如在AWS上)。本文假設我們使用的是自己的膝上型電腦,而且我們想跟著學,透過例項來學習(也就是說,我們不打算透過所有的細節來了解引擎蓋下的一切運作)。
本地沙盒還意味著我們不一定需要訪問Hadoop基礎設施,如Zookeeper、名稱節點、輔助名稱節點、作業歷史伺服器、任務跟蹤器、資料節點等。
但是,我們確實需要能夠建立一個Hadoop叢集! 有幾種方法可以實現這一目標。
幾年前,我遇到了Cloudera的Vagrant專案,並從那時起一直愉快地使用它。現在Cloudera同時支援Vagrant和基於Docker的CDH5部署,它變得更加厲害。我們可以在短短几分鐘內建立一個與Horton作品沙盒相容的沙盒。
 
我們先在膝上型電腦上安裝Virtual Box(虛擬機器軟體)和Vagrant。
如果你不想使用Vagrant,你可以考慮這些其他選擇。一個預裝了Hadoop的亞馬遜EC2雲例項。雖然有很多好的AMI,但我沒有找到一個與Vagrant相容的,能讓我快速建立一個Hadoop叢集的AMI。抱歉!EC2也不允許你使用Hadoop叢集。EC2也不允許你改變一個例項的記憶體量。
在你的膝上型電腦上進行裸機安裝(注意32位與64位的要求)!
在我的例子中,這是一臺惠普Envy M6膝上型電腦,有16GB記憶體,執行Windows 8 x64,但要確保它有足夠的磁碟空間以及CPU能力。
雖然在Vagrant上部署Hadoop叢集沒有固定的標準,但大多數情況下,你至少需要3臺機器。我使用的這個Vagrant檔案是基於Karthik Srinivas最初的一個檔案,因此,讓我們獲取原始碼並建立我們的沙盒。
 
請注意,這將從Oracle的公共資源庫中下載一個預設安裝了Virtual Box Guest Additions的Ubuntu Precise映象。當一切部署成功後,我們應該在我們的Virtual Box使用者介面上看到一堆執行中的虛擬機器。
就這樣了! 我們現在已經準備好開始使用Hadoop和本地沙箱了。我們唯一還需要的是一本關於Hadoop的好書或教程。雖然我知道有很多優秀的資源,但在過去的幾年裡,下面這本是我最喜歡的。Sam R. Alapati的《學習Apache Hadoop》。
如果你想更冒險一些(並安裝一些額外的好東西),看看這些Horton works Sandbox和Cloudera Quick Start VM(基於CDH4)的Vagrantfiles。你可以按原樣使用它們,或者作為建立你自己的沙盒的起點。
 

相關文章