Facebook的Realtime Hadoop及其應用

熊貓夜未眠發表於2011-09-14

enter link description here 作者:冠誠, IBM中國研究院, 研究員

在今年的SIGMOD‘11上,Facebook又發了一篇新paper,講述了它們在提高Hadoop實時性上的工作及其應用。簡單來講,他們的專案需求主要有:

 1.Elasticity(伸縮性)
 2. High write throughput(高寫吞吐量)
 3. Efficient and low-latency strong consistency semantics    within
a    data center(單個data center內高效能、低延遲的強一致性)
 4. Efficient random reads from disk(disk的高效能隨機讀)
 5. High Availability and Disaster Recovery(高可靠性、災後恢復能力)
 6. Fault Isolation(錯誤隔離)
 7. Atomic read-modify-write primitives(read-modify-write原子操作)
 8. Range Scans(範圍掃描)
  • 最終他們選擇了Hadoop和HBase作為解決方案的基石,因為HBase已經滿足了上述需求中的大部分。與此同時,他們還做了如下三點改進以滿足實時性需求:
    1. File Appends
    2. Name Node的高可靠性優化 (AvatarNode)
    3. HBase的讀效能的優化

文章還列舉了三個基於此方案的應用:Facebook Message,Facebook Insight,Facebook Metric Systems,大家可以著重看看這三個應用的特點及需求是怎樣被這個方案滿足的。

在現在這個時代,只有大公司才有如此大的資料來做新東西,難怪Facebook,Google的paper被大量追捧了。

參考資料:

1 Facebook’s New Realtime Analytics System: HBase To Process 20 Billion Events Per Day

2 Real Time Analytics for Big Data: An Alternative Approach

相關文章