Hadoop哪家強?Hortonworks、Cloudera、MapR案例集錦
本文綜合了Hortonworks、Cloudera、MapR三家主要的Hadoop發行版供應商的Hadoop應用案例,真是各有神通,不服來辯。
Cloudera:加速資料分析
Edo Interactive是一家美國市場營銷公司,幫助廣告主連線線上廣告和線下資料,提供資料驅動的個性化推薦服務。不過幾年前,Edo遇到了這樣的問題:資料倉儲系統處理信用卡交易資料耗時長,不能滿足公司向消費者和餐館進行個性化推薦的業務需求。
Edo負責基礎架構和資訊系統的高階副總裁Tim Garnto表示:“處理每天的資料,要花費27小時,所以,任務是根本完不成的。”2013年,Edo用Hadoop叢集替換了基於PostgreSQL的系統,為公司構建了資料資源池。
公司每天會收集來自全美5千萬次零售交易,把資料放到有20個節點的Cloudera發行的Hadoop叢集上,使用Pentaho資料整合工具。從銀行和信用卡公司收集來的資料經過處理,通過預測模型向持有銀行卡或信用卡的使用者推薦優惠券等內容。優惠券資訊由Edo的合作伙伴每週向客戶傳送,自動和使用者的消費行為匹配。
Garnto介紹到,因為模型的複雜度不同,Edo的資料分析師可以在幾分鐘或幾小時內處理資料,這在以前,是做不到的。
不過在資料池搭建上,公司也遇到困難,最初,只有一個IT人員有Hadoop和MapReduce程式設計框架的經驗。公司組織了對內部員工的培訓,但新的MapReduce程式設計等於讓員工放棄了關係型資料庫的方法,公司在升級流程方面花費了很多時間。
要讓進入系統的生資料保持一致性,並生成標準化分析資料集也要花費一定的時間。Edo目前擁有的450億條記錄,總量255TB的資料對公司來說是核心資產,所以Garnto要倍加小心地管理,增添新的Hadoop生態系統技術,因為增加哪怕一項很小的技術,都會對系統工作的方式產生影響。Garnto因此說,在我們面臨的所有挑戰中,這是最有意思的,我們要富有遠見地規劃好叢集開發的未來。
Hortonworks:降低硬體成本
收集和處理網路、收集和物聯網活動資料的Webtrends是另一個資料資源池使用者。這是一家波蘭公司,它在去年7月部署了Hortonworks發行的Hadoop叢集,在今年年初正式執行,最初是為了支援一款叫做Explore的產品,讓公司市場人員對客戶資料進行即時分析。公司負責產品架構的總監PeterCrossley表示,在60個節點的叢集上,每個quarter上要新增500TB的資料,加起來有1.28PB。
Webtrends計劃使用Hadoop平臺替換原有儲存系統,通過使用Kafka資訊佇列技術和自動處理指令碼,網路點選資料可以進入叢集,能夠在20到40毫秒之間進行資料分析。報表和分析基本上是實時的,比舊系統要快很多。Hadoop叢集也支援更高階的分析,硬體成本要降低25%到50%。
使用Hadoop資料資源池,意味著公司管理和使用資訊的意識要改變。之前,公司要首先同資料倉儲中廣泛的資料列中構建通用的資料包表。
公司還要考慮資料資源池架構和資料治理流程,以更好地管理Hadoop叢集的資料。進入系統的生資料結構鬆散,但在資料治理上有嚴格的規定。另外,公司將Hadoop叢集分成了三個獨立的層,一層負責生資料,第二層負責增加的日常資料集,第三層負責第三方資訊。每一層都有自己的資料分類和治理政策,因資料集不同而各異。
MapR:有序的資料儲存
基於雲的預測分析軟體供應商Razorsight 的CTO Suren Nathan在談到建立和使用Hadoop資料資源池時,也提到了要非常“有紀律、有組織”。如果不然,系統就會變成一個失控的垃圾場。
Razorsight為電信行業提供雲基礎的分析服務,在2014年第二季度開始使用MapR發行的Hadoop叢集。來自代理的客戶、運營和網路資料通過自建的提取工具載入進系統,通過Spark處理引擎提供給資料科學家,該叢集有5個產品節點,120TB的儲存容量。
像Webtrends一樣,Razorsight把資料資源池分為三個部分,一部分負責6個月以內的資料,一部分負責時間更長但仍然有用的資料,最後一部分負責不再使用但需要儲存的資料。目前,在前兩個部分,公司有超過20TB的資料。為了使系統執行的更順暢,公司聘請了有資料治理和分佈系統部署經驗的新員工,現有員工負責Hadoop、Spark和相關技術。
Hadoop叢集每TB資料的成本是2千美元,是IBM Netezza資料倉儲系統的十分之一,不過Razorsight最開始建立Hadoop叢集只是為了資料儲存,分析模型和資料視覺化仍然是在舊系統中完成,部分原因是因為Netezza硬體和IBM的SPSS分析軟體繫結。Nathan預計今年年底能夠完成視覺化層和分析資源池想Hadoop資料資源池架構的遷移。
相關文章
- Cloudera和Hortonworks宣佈合併:對Hadoop的一記重創!CloudHadoop
- Cloudera hadoop認證總結CloudHadoop
- Hadoop將死?Cloudera CEO怒懟GartnerHadoopCloud
- cloudera learning7:Hadoop資源管理CloudHadoop
- Cloudera Manager安裝 & 搭建CDH叢集Cloud
- Python 管理哪家強?Python
- Python專案開發案例集錦及配套程式碼Python
- 《python專案開發案例集錦》讀書筆記Python筆記
- 晶片檢測哪家強?晶片
- 知識集錦
- 管理故事集錦
- ArchLinux 問題集錦Linux
- 小問題集錦
- docker 踩坑集錦Docker
- Python例項集錦Python
- 前端知識集錦前端
- kafka問題集錦Kafka
- flutter問題集錦Flutter
- 雲端計算到底哪家強
- 1032 挖掘機技術哪家強
- 遷雲案例集錦(一)500臺伺服器批量遷雲實戰伺服器
- hortonworks/registry配置詳解
- Hadoop叢集搭建Hadoop
- Hadoop搭建叢集Hadoop
- Big Sur中Chrome與Safari哪家強?Chrome
- 國內NLP實驗室哪家強?
- PHP命令執行集錦PHP
- 面試題集錦-SpringBoot面試題Spring Boot
- SYBASE 使用技巧集錦(zt)
- JS工程化集錦JS
- Android 知識點 集錦Android
- iOS 感測器集錦iOS
- vue知識點集錦Vue
- 面試集錦(九)git面試Git
- 面試集錦(十二)hashMap面試HashMap
- 面試集錦(三)spring面試Spring
- 四月前端知識集錦(每月不可錯過的文章集錦)前端
- 六月前端知識集錦(每月不可錯過的文章集錦)前端
- 五月前端知識集錦(每月不可錯過的文章集錦)前端