hadoop主要的一些特點及相關領域發展狀態

chenfeng發表於2016-05-10
hadoop主要的一些特點
  擴容能力:能可靠地儲存和處理千兆位元組(PB)資料。
  成本低:可以透過普通機器組成的伺服器群來分發以及處理資料。這些伺服器群總計可達數千個節點。
  高效率:透過分發資料,hadoop可以在資料所在的節點上並行地處理它們,這使得處理非常的快速。
  可靠性:hadoop能自動地維護資料的多份複製,並且在任務失敗後能自動地重新部署計算任務。

Hadoop在相關領域的發展狀態
 Yahoo :34個叢集,總數超過3萬臺機器,最大的叢集是4000臺左右,總儲存容量超過100PB
 淘寶:單個叢集規模2000臺,實際儲存資料超過17PB,日執行mapreduce job達6萬個,開發團隊240餘人

Hadoop系統當前的狀態
1、目前hadoop平臺擁有布有36臺機器。
2、每臺機器的配置為:2C四核,32G,1T_RAID0*6,CentOS5.4 64bit。
3、其中35臺為計算節點,共設280個cpu計算資源,儲存容量175T

目前在hadoop上執行的專案
1、ddclick:
a.流量資料的儲存與常用指標計算
2、研究開發組:
a.當首館首流量(各專題單品)
b.專題頁統計
c.首頁輪轉統計
d.推薦效果統計
e.當首所有連結分析
f.基礎資料(瀏覽樹等)生成
g.未設定時執行但隨時可執行的任務:常見搜尋引擎帶來的流量訂單統計;任意指定路徑的流量收訂情況;任意起始位置流量收訂統計;等等

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/15498/viewspace-2096820/,如需轉載,請註明出處,否則將追究法律責任。

相關文章