不看不知道:六個超大規模Hadoop部署案例

zol.com.cn發表於2014-03-28

 Hadoop已經成為技術發展趨勢

  據估計,到2015年,全世界一半以上的資料將涉及Hadoop--圍繞這個開源平臺的生態系統日益龐大,這有力地印證了這個驚人的數字。

  然而,有些人表示,雖然Hadoop是眼下熱鬧非凡的大資料領域最熱話題,但它肯定不是可以解決資料中心和資料管理方面所有難題的靈丹妙藥。考慮到這一點,我們暫且不想猜測這個平臺未來會如何,也不想猜測徹底改變各種資料密集型解決方案的開源技術未來會如何,而是關注讓Hadoop越來越火的實際應用案例。

  毫無疑問,現在有幾個出眾的例子,表明Hadoop及相關開源技術(Hive和HBase等)在如何重塑大資料公司考慮基礎設施的角度。

  雖然我們會通過在今年Hadoop Wrld大會之前撰寫的一系列文章,繼續專門介紹Hadoop並非解決之道的應用案例,但是不妨闡明幾個引人注目的、大規模Hadoop部署案例,它們在重塑依賴大資料的公司,這些公司從事社交媒體、旅遊和一般商品和服務等行業。

 電子港灣(eBay)的Hadoop環境

  先來介紹你在電子商務興起時期最先開始聽到的一家公司:電子港灣(eBay)。

  案例之一:電子港灣的Hadoop環境

不看不知道 六個超大規模Hadoop部署案例

  電子港灣公司分析平臺開發小組的Anil Madan討論了這家拍賣行業的巨擘在如何充分發揮Hadoop平臺的強大功能,充分利用每天潮水般湧入的8TB至10TB資料。

  雖然電子港灣只是幾年前才開始向生產型Hadoop環境轉移,但它卻是早在2007年就率先開始試用Hadoop的大規模網際網路公司之一,當時它使用一個小型叢集來處理機器學習和搜尋相關性方面的問題。

  這些涉及的是少量資料;Madan表示,但是就這個試驗專案而言很有用;不過隨著資料日益增加、使用者活動日益頻繁,電子港灣想充分利用幾個部門和整個使用者群當中的資料。

  電子港灣的第一個大型Hadoop叢集是500個節點組成的Athena,這個專門建造的生產型平臺可以滿足電子港灣內部幾個部門的要求。該叢集只用了不到三個月就建成了,開始高速處理預測模型、解決實時問題;後來不斷擴大規模,以滿足其他要求。

  Madan表示,該叢集現由電子港灣的許多小組使用,既用於日常生產作業,又用於一次性作業。小組使用Hadoop的公平排程器(Fair Scheduler)來管理資源分配、為各小組定義作業池、賦予權重、限制每個使用者和小組的並行作業,並且設定搶佔超時和延遲排程。

  雖然Madan經常在臺上暢談Hadoop具有的實際價值,他也經常提到工作小組在擴建電子港灣基礎設施時面臨、繼續竭力克服的幾個主要挑戰。下面列出了與Hadoop有關的一系列挑戰:

  可擴充套件性

  就現有版本而言,主伺服器NameNde存在可擴充套件性問題。由於叢集的檔案系統不斷擴大,它佔用的記憶體空間也隨之擴大,因為它把整個後設資料儲存在記憶體中。1PB的儲存容量大概需要1GB的記憶體容量。幾種切實可行的解決方案是分層名稱空間分割槽,或者結合使用Zkeeper和HBase,實現後設資料管理。

  可用性

  NameNde的可用性對生產型工作負載來說至關重要。開源社群正致力於冷備份(cld standby)、暖備份(warm standby)和熱備份(ht standby)這幾個選項,比如檢查點(Checkpint)節點和備份(Backup)節點;從輔助NameNde切換avatar的Avatar節點;以及日誌後設資料複製技術。我們正在評估這些方案,以建立我們的生產型叢集。

  資料發現

  在天生不支援資料結構的系統上支援資料監管、發現和模式管理。一個新專案準備把Hive的後設資料儲存區和wl合併成一個新系統,名為Hwl。我們旨在努力把該系統連線到我們的分析平臺中,那樣我們的使用者很容易跨不同的資料系統發現資料。

  資料移動

  我們正在努力開發釋出/訂閱資料移動工具,以便跨我們不同的子系統,如資料倉儲和Hadoop分散式檔案系統(HDFS),支援資料拷貝和調和。

  策略

  通過配額(目前的Hadoop配額需要做一些改進)進行儲存容量管理,能夠制定良好的保留、歸檔和備份等策略。我們正根據叢集的工作負載和特點,跨不同的叢集努力定義這些策略。

  度量指標、度量指標、度量指標

  我們正在開發成熟可靠的工具,以便生成度量指標,用於度量資料來源、使用情況、預算編制和利用率。一些Hadoop企業伺服器體現的現有度量指標有的不夠全面,有的只是臨時的,很難看清楚叢集使用模式。

 通用電氣藉助Hadoop分析使用者情感

  案例之二:通用電氣藉助Hadoop分析使用者的情感

  據通用電氣公司(GE)Hadoop技術部的產品經理Linden Hillenbrand聲稱,情感分析很棘手--它不僅僅是個技術挑戰,還是個業務挑戰。

不看不知道 六個超大規模Hadoop部署案例

  在通用電氣公司,數字媒體小組和Hadoop小組通力合作,為高度依賴高階情感分析功能的營銷部門開發了一款互動式應用軟體。

  此舉目的在於,讓營銷小組能夠通過我們開展的各項活動,評估外界對通用電氣所持的看法(正面看法、中立看法或負面看法)。Hadoop負責支援該應用軟體的情感分析部分,這部分對Hadoop來說是一種高度密集的文字挖掘應用環境。

  他聲稱,利用 Hadoop應對技術層面的這些挑戰帶來了重大改進。

  為了強調這一點,Hillenbrand提到了公司在情感分析方面採取的獨特NSQL方法,這一方法帶來了80%的準確率,也是Hadoop這個核心平臺的基礎,確保公司未來在資料探勘方面求得發展。正如下圖表明的那樣,通用電氣在利用資料探勘以及新平臺帶來一種新的洞察力方面有了大幅改進。

  Hillenbrand表示,就通用電氣在內部對Hadoop未來的展望而言,情感分析專案取得了雙重成功。它不僅為這家《財富》50強公司的營銷小組提供了更準確的結果,還為這家公司的下一代深度資料探勘、分析和視覺化等專案奠定了基礎。

 旅遊行業的典型應用案例

  案例之三:旅遊行業的典型應用案例

  rbitz Wrldwide旗下的全球消費者旅遊品牌每天要處理數以百萬計的搜尋和交易。

  通過關聯式資料庫等傳統系統,儲存和處理這類活動生成的越來越龐大的資料量變得越來越難,因而這家公司求助於Hadoop,幫助消除部分複雜性。

不看不知道 六個超大規模Hadoop部署案例

  這家公司的首席軟體工程師Jnathan Seidman和另一名工程師Ramesh Venkataramiah一向樂於討論這家旅遊網站的基礎設施如何加以管理。他們倆在最近面向多位聽眾的一次交流中討論了Hive的作用,尤其是對一些關鍵搜尋功能所起的作用。

  Hadoop和Hive幫助這家線上旅遊中心處理各項事務:改進讓遊客可以迅速篩選和分類酒店的功能,到檢視更巨集觀內部趨勢的功能,不一而足。據這兩位工程師聲稱,rbitz的大資料問題讓它成為運用Hadoop的"典型"。他們倆表示,面對很分散的服務網路--這些服務每天生成數百GB大小的當天日誌,處理每天數百萬的這些搜尋和交易,這絕非易事。

  在上面的幻燈片中,他們倆演示瞭如何利用Hadoop和Hive來處理資料;可能更重要的是,演示了什麼使得這家公司的特定問題最適合用Hadoop來處理(因為需要提醒的是一點,並非所有業務都有Hadoop的用武之地。)

 Facebook更新Hadoop的狀態

  案例之四:Facebook更新Hadoop的狀態

  雖然一些公司和機構對其龐大的Hadoop系統祕而不宣,但是就已知存在的系統而言,Facebook的資料倉儲Hadoop叢集已成為世界上已知規模最大的Hadoop儲存叢集。

不看不知道 六個超大規模Hadoop部署案例

  下面是關於這個單一HDFS叢集的一些詳細資訊:

  單一HDFS叢集中儲存容量達21 PB

  2000個機器

  每個機器12 TB(有幾個機器是每個24TB)

  1200個機器每個有8個處理器核心,800個機器每個有16個核心

  每個機器有32 GB記憶體

  每個機器有15個對映/化簡(map-reduce)任務

  已配置儲存容量總共超過21PB,大於之前大名鼎鼎的雅虎叢集(14PB)。在Hadoop的早期,Facebook就與另外幾個網際網路巨擘,充分利用這種框架來管理其不斷髮展的業務。

  由於每月活躍使用者超過4億個,頁面瀏覽量超過5000億人次,每個月共享的內容多達250億則,對於自稱能夠處理大資料問題的任何技術而言,Facebook是再合適不過的應用環境。

  Facebook的工程師與雅虎的Hadoop工程小組密切合作,把Hadoop推向更高的可擴充套件性和效能。Facebook有許多Hadoop叢集,其中最大的一個叢集用於資料倉儲。下面一些統計數字描述了Facebook的資料倉儲Hadoop叢集的幾個特點:

  每天增加12 TB的壓縮資料

  每天掃描800 TB的壓縮資料

  每天處理25000個對映/化簡作業

  HDFS裡面有6500萬個檔案

  30000個客戶機同時訪問HDFS NameNde

  Facebook的軟體工程師、開源倡導者Jnathan Gray演示了Facebook如何一直使用更龐大Hadoop平臺架構的一部分:HBase,支援生產環境下的線上應用程式和離線應用程式。

  雖然上述幻燈片有點深奧,又針對特定環境,但是大致描述了HBase適合的那種複雜資料環境;而更重要的是,描述了這個環境需要怎樣的一些重大調整和專門知識才加以管理。HBase僅僅是Facebk管理海量資料、為使用者提供異常智慧化服務的方法之一。

 Infchimps處理一百萬倍的混合

  案例之五:Infchimps處理一百萬倍的混合(mashup)

  問一下Phillip "Flip" Krmer哪裡能找到幾乎任何的列表、電子表格或資料集,他會很高興地向你介紹他的公司InfChimps,這家公司自稱是"全世界的資料倉儲"。

  每個月都有成千上萬的人訪問該網站進行搜尋,查詢特定的資料。最近,該網站的使用者在查詢推特和社交網路資料。其較為傳統的資料集包括其他熱門資料,比如金融、體育比賽和股票資料。

不看不知道 六個超大規模Hadoop部署案例

  Krmer表示,當然,使用者們在別的地方也能查詢這些資料集,但是他們常常訪問InfChimps,未必是由於缺少資料或者很難獲得資料,而是由於別處獲取資料的成本極其高昂,或者資料採用了不適合使用的格式--至少對Infchimps面向的開發人員這個客戶群來說是這樣。

  這家公司正在裝配一個資料儲存庫,裡面含有成千上萬的公共和商業資料集,許多資料集達到了TB級。現代機器學習演算法通過藉助資料的一般結構,深入分析資料;即便資料有機地嵌入到連結資料集裡面,也是如此。當然,所有這些工作會帶來一個複雜的資料環境,勢必需要一種能夠跨多個物件執行的平臺,無論對內部(資料收集和管理方面)來說,還是對平臺使用者來說,都是如此。

  Infchimps讓使用者們可以藉助使用Hadoop以及亞馬遜雲和Rackspace雲的基礎設施,充分利用資料。你從下面可以看到,這家公司充分利用了彈性Hadoop,還利用了亞馬遜網路服務(AWS)和Rackspace,同時在後端上使用Hadoop滿足自己的要求。

  這家公司讓使用者可以隨時獲取自己所需的Hadoop資源,無論這些是預定資源、臨時資源還是專用資源。這種靈活的功能能夠支援夜間批處理作業、合規或測試叢集、科學系統和生產型系統。加上為基於Hadoop的功能新增了Irnfan(Infchimps的自動化系統配置工具)這一基礎,彈性Hadoop讓使用者可以專門為手頭的作業調整資源。Infchimps聲稱,這簡化了根據需要時,對映或化簡專門機器、高計算機器、高記憶體機器等機器的過程。

 Hadoop在挖掘軍事情報方面的作用

  案例之六:Hadoop在挖掘軍事情報方面的作用

  Digital Reasning聲稱,就其中一個核心市場:美國政府而言,它在"自動理解大資料"方面一路領跑。

不看不知道 六個超大規模Hadoop部署案例

  Digital Reasning致力於實現這個目標,為此最近竭力梳理來自美國情報部門的海量的非結構化文字資料,尋找可能危及國家安全的威脅。這款專門定製的軟體用於面向實體的分析(entity-riented analytics),已成為Synthesys技術的核心,這項技術則是其業務的立足之本。

  該公司使用Cludera的發行版,而且其Synthesys平臺支援分散式的、面向列的開源資料庫HBase。據Digital Reasning聲稱,"這種整合讓我們得以獲得超大規模處理功能,並且為政府和商業市場提供複雜資料分析能力。"

  公司執行長Tim Estes在下面的幻燈片中具體介紹了公司的基礎設施和這一使用場景:

  "Cludera及其Hadoop專家小組與我們緊密合作,在複雜分析領域取得了新的突破。Cludera和Digital Reasning共同為要求極高的客戶提供了針對極其龐大的不同資料集,識別和關聯實體的功能,"Digital Reasning的執行長Tim Estes如是說。

  他繼續說,以前,只能"孤立地分析關鍵情報資料孤島",但是Synthesys整合了Cludera的Apache Hadoop(CDH3)和HBase支援功能後,我們可以把用於自動理解資料的演算法與能以前所未有的方式處理規模和複雜性,把各部分聯絡起來的平臺結合起來。"

相關文章