如果你對上面提及的大資料元件已經有所認識，或者對如何構建大資料實時處理系統感興趣，那麼就可以盡情閱讀下面的內容了。

需要注意的是，核心在於如何構建實時處理系統，而這裡給出的案例是實時統計某個網站的PV、UV，在實際中，基於每個人的工作環境不同，業務不同，因此業務系統的複雜度也不盡相同，相對來說，這裡統計PV、UV的業務是比較簡單的，但也足夠讓我們對大資料實時處理系統有一個基本的、清晰的瞭解與認識，是的，它不再那麼神秘了。

二、實時處理系統架構

我們的實時處理系統整體架構如下：

即從上面的架構中我們可以看出，其由下面的幾部分構成：

Flume叢集
Kafka叢集
Storm叢集

從構建實時處理系統的角度出發，我們需要做的是讓資料在各個不同的叢集系統之間打通（從上面的圖示中也能很好地說明這一點），即需要做各個系統之前的整合，包括Flume與Kafka的整合，Kafka與Storm的整合。當然，各個環境是否使用叢集，依個人的實際需要而定，在我們的環境中，Flume、Kafka、Storm都使用叢集。

上海寶付大資料分析storm結合

相關文章