入口網站分析統計策略?

xgonline發表於2010-04-13
本入口網站是一個電信級使用者規模的門戶,初期日PV在500萬,以後至少擴充套件在千萬以上。

當前一級門戶正在實現。

硬體規模:
12臺刀片PC(單臺:2CPU/32GB)
2臺HP 資料庫伺服器(單臺:14CPU/28GB)
1臺F5主機
其他


當前有一個需求點是:分析統計網站運營資料,統計範圍包括當前正在搭建的一級門戶,以及已經單獨部署的幾十個二級門戶(省級規模)。

因為最終有較強資料分析功能,包括各種對比,當前擬考慮策略:

分三個部分:
1)資料採集
2)資料倉儲
3)資料顯示

現在的壓力在資料採集(主要是WEB日誌),前期日處理日誌在1G,最終日處理量在30G左右,
現在考慮的方案有兩種,
1)採用Hapdoop+Chukwa這種分散式檔案策略,然後解析資料到資料倉儲中(Oracle資料庫)。
本人傾向於這種方式,但專案時間難以保證。

2)採用piwik(php+mysql執行環境,script插碼),從piwik的資料庫中採集資料。
這種感覺是一種折中,讓piwik採集原始資料。但對piwik的處理能力心中沒底。

其它的策略包括商業化整合,以及Google Analytics這些整合方式因為商業原因排除了。


有請各位大師給些建議呀。謝謝。

相關文章