hadoop商業版本選擇對比

adnb34g發表於2018-09-14

記得剛接觸到 hadoop 的時候跟大部分人一樣都會抱怨 hadoop 的安裝部署問題,對於一個新手來說這這的是個頭疼的問題,可能需要花費一整天的時間才能把分散式環境安裝配置好。在剛接觸 hadoop 的一段時間裡,可以說對於 hadoop 的理解一直都是停留在相對較膚淺的層面。後來隨著自己的不斷摸索以及向圈內的前輩大神請教交流(主要是向大神請教學來的),自己對於 hadoop 的認識以及應用也就更加嫻熟。

作為一個過來人,在這裡給新人分享一些關於 hadoop 版本選擇的問題,希望別像我當時傻乎乎的只知道 hadoop 1.0.x 2.x 版本。

當前 hadoop 的發行版本除了 Apache 的開元版本之外,華為發行版、 Intel 發行版以及 Cloudera 發行版等。上面說的這幾個第三方的發行版已經有相對較長的一些時間,除此之外還有最近幾年異軍突起的 DKhadoop 商業發行版。

國內的大多數公司推出的 Hadoop 發行版都是收費的,免費的發行版則主要是國外的,比如 Apache 的發行版、 Cloudera 發行版等。面對如此多的 hadoop 版本不免會讓人難以選擇。下面我們就簡單對比一些這些不同版本的優缺點,希望對於新手能夠有所幫助。

Apache 發行版:

優點: Apache 發行版的優點主要集中表現在它的完全開源免費、社群活躍性以及文件、資料詳實等方面。

缺點: Apache 發行版的缺點也相對較多,具體表現在以下幾個方面:

  1. 複雜的版本管理。版本管理比較混亂,各種版本層出不窮,讓使用者不知所措。

  2. 複雜的叢集部署、安裝、配置。通常按照叢集需要編寫大量的配置檔案,分發到每一臺節點上,容易出錯,效率低下。

  3. 複雜的叢集運維。對叢集的監控,運維,需要安裝第三方的其他軟體,如 ganglia nagois 等,運維難度較大。

  4. 複雜的生態環境。在 Hadoop 生態圈中,元件的選擇、使用,比如 Hive Mahout Sqoop Flume Spark Oozie 等等,需要大量考慮相容性的問題,版本是否相容,元件是否有衝突,編譯是否能透過等。經常會浪費大量的時間去編譯元件,解決版本衝突問題。

    第三方發行版本的優缺點:( CDH HDP MapR

    優點: 第三方發行版本的優點主要有以下幾個:

    1.基於 Apache 協議, 100% 開源;

    2.相較於原生的 hadoop 在相容性、安全型以及穩定性方面有所提升;

    3.版本管理清晰,更新更快;

    4.提供了部署、安裝、配置工具,大大提高了叢集部署的效率,可以在幾個小時內部署好叢集

    5.運維簡單。提供了管理、監控、診斷、配置修改的工具,管理配置方便,定位問題快速、準確,使運維工作簡單,有效

    缺點: 第三方 hadoop 發行版的主要缺點就是涉及到廠商鎖定的問題,但這一問題可以透過技術方面解決掉。

    DKhadoop 發行版:

    Dkhadoop 發行版是我目前接觸的以及使用一個版本。與市場的其他第三方的發行版本相比較,整合程度要更高,但同樣也保持了開源系統的全部優點。綜合目前使用的情況看,在效能上相較於以往使用的一些第三方 hadoop 發行版要提升很多的!關於 DKhadoop 發行版的問題,感興趣的可以自己去查閱收集一些資料看看。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2214211/,如需轉載,請註明出處,否則將追究法律責任。

相關文章