Hadoop哪家強?Hortonworks、Cloudera、MapR案例集錦

天府雲創發表於2017-04-01

本文綜合了Hortonworks、Cloudera、MapR三家主要的Hadoop發行版供應商的Hadoop應用案例,真是各有神通,不服來辯。

Cloudera:加速資料分析

Edo Interactive是一家美國市場營銷公司,幫助廣告主連線線上廣告和線下資料,提供資料驅動的個性化推薦服務。不過幾年前,Edo遇到了這樣的問題:資料倉儲系統處理信用卡交易資料耗時長,不能滿足公司向消費者和餐館進行個性化推薦的業務需求。

Edo負責基礎架構和資訊系統的高階副總裁Tim Garnto表示:“處理每天的資料,要花費27小時,所以,任務是根本完不成的。”2013年,Edo用Hadoop叢集替換了基於PostgreSQL的系統,為公司構建了資料資源池。

公司每天會收集來自全美5千萬次零售交易,把資料放到有20個節點的Cloudera發行的Hadoop叢集上,使用Pentaho資料整合工具。從銀行和信用卡公司收集來的資料經過處理,通過預測模型向持有銀行卡或信用卡的使用者推薦優惠券等內容。優惠券資訊由Edo的合作伙伴每週向客戶傳送,自動和使用者的消費行為匹配。

Garnto介紹到,因為模型的複雜度不同,Edo的資料分析師可以在幾分鐘或幾小時內處理資料,這在以前,是做不到的。

不過在資料池搭建上,公司也遇到困難,最初,只有一個IT人員有Hadoop和MapReduce程式設計框架的經驗。公司組織了對內部員工的培訓,但新的MapReduce程式設計等於讓員工放棄了關係型資料庫的方法,公司在升級流程方面花費了很多時間。

要讓進入系統的生資料保持一致性,並生成標準化分析資料集也要花費一定的時間。Edo目前擁有的450億條記錄,總量255TB的資料對公司來說是核心資產,所以Garnto要倍加小心地管理,增添新的Hadoop生態系統技術,因為增加哪怕一項很小的技術,都會對系統工作的方式產生影響。Garnto因此說,在我們面臨的所有挑戰中,這是最有意思的,我們要富有遠見地規劃好叢集開發的未來。

Hortonworks:降低硬體成本

收集和處理網路、收集和物聯網活動資料的Webtrends是另一個資料資源池使用者。這是一家波蘭公司,它在去年7月部署了Hortonworks發行的Hadoop叢集,在今年年初正式執行,最初是為了支援一款叫做Explore的產品,讓公司市場人員對客戶資料進行即時分析。公司負責產品架構的總監PeterCrossley表示,在60個節點的叢集上,每個quarter上要新增500TB的資料,加起來有1.28PB。

Webtrends計劃使用Hadoop平臺替換原有儲存系統,通過使用Kafka資訊佇列技術和自動處理指令碼,網路點選資料可以進入叢集,能夠在20到40毫秒之間進行資料分析。報表和分析基本上是實時的,比舊系統要快很多。Hadoop叢集也支援更高階的分析,硬體成本要降低25%到50%。

使用Hadoop資料資源池,意味著公司管理和使用資訊的意識要改變。之前,公司要首先同資料倉儲中廣泛的資料列中構建通用的資料包表。

公司還要考慮資料資源池架構和資料治理流程,以更好地管理Hadoop叢集的資料。進入系統的生資料結構鬆散,但在資料治理上有嚴格的規定。另外,公司將Hadoop叢集分成了三個獨立的層,一層負責生資料,第二層負責增加的日常資料集,第三層負責第三方資訊。每一層都有自己的資料分類和治理政策,因資料集不同而各異。

MapR:有序的資料儲存

基於雲的預測分析軟體供應商Razorsight 的CTO Suren Nathan在談到建立和使用Hadoop資料資源池時,也提到了要非常“有紀律、有組織”。如果不然,系統就會變成一個失控的垃圾場。

Razorsight為電信行業提供雲基礎的分析服務,在2014年第二季度開始使用MapR發行的Hadoop叢集。來自代理的客戶、運營和網路資料通過自建的提取工具載入進系統,通過Spark處理引擎提供給資料科學家,該叢集有5個產品節點,120TB的儲存容量。

像Webtrends一樣,Razorsight把資料資源池分為三個部分,一部分負責6個月以內的資料,一部分負責時間更長但仍然有用的資料,最後一部分負責不再使用但需要儲存的資料。目前,在前兩個部分,公司有超過20TB的資料。為了使系統執行的更順暢,公司聘請了有資料治理和分佈系統部署經驗的新員工,現有員工負責Hadoop、Spark和相關技術。

Hadoop叢集每TB資料的成本是2千美元,是IBM Netezza資料倉儲系統的十分之一,不過Razorsight最開始建立Hadoop叢集只是為了資料儲存,分析模型和資料視覺化仍然是在舊系統中完成,部分原因是因為Netezza硬體和IBM的SPSS分析軟體繫結。Nathan預計今年年底能夠完成視覺化層和分析資源池想Hadoop資料資源池架構的遷移。

相關文章