大資料,這個詞越來越熱,很多人都在談大資料,其實很多張口閉口大資料的人,或許都不知道資料是如何產生、傳遞、儲存、運算到應用。有段時間,看到一些大資料文章,就感覺純屬湊熱鬧,小資料都沒搞明白,成天扯大資料。大資料,真的不是普通公司可以做的。
    騰訊大資料現狀

IBM將“大資料”理念定義為4個V:大量化(Volume)、多樣化(Variety)、快速化(Velocity)以及產生的價值(Value)。我們可以從這幾個方面一起看看騰訊大資料現狀。

    從業務角度

騰訊資料真的夠大。騰訊資料平臺自研的TDW替換了商業資料庫,實現公司級資料集中儲存,總記錄達到375萬億跳,日接入5千億條,覆蓋移動裝置數7.7億。

    從平臺角度看

騰訊資料平臺從裝置8400臺,單叢集5600臺,總儲存100PB+;日新增資料200TB+,月資料增長率10%,日均JOB數100萬,日均計算量5PB,量夠大,速度也夠快。

    從使用者角度看

這裡的使用者,指的是騰訊內部員工。騰訊員工2萬多人,騰訊資料門戶的月活躍是2500左右,也就是說訪問騰訊資料門戶的人佔比公司10%+;每月處理資料提取分析的任務數是1萬個,如果訪問者每人都會提資料任務,平均就是一個人提4個左右的分析提取任務;使用者畫像分析任務為1.2萬,可以看出騰訊對使用者畫像的重視程度。

    騰訊大資料的多樣性

下面的圖,騰訊資料平臺已經接入100多個產品的各類資料,例如:使用者行為、賬號屬性、收入資料等等。

    騰訊資料平臺產品架構 
    騰訊資料平臺從五個方面進行產品設計,分別是:資料管理、資料監控、資料分析、資料視覺化、資料探勘。
    這也是我曾經在騰訊、YY語做過的資料產品運營工作的主線,五個方面分別通過各種資料產品落地,為公司內部產品策劃、產品運營、產品營收、客服、財務等提供資料支撐。
    騰訊業務平臺與資料服務

下面這張圖非常清晰的闡明瞭騰訊資料平臺的資料服務與業務平臺的關係。資料服務的核心是分散式儲存、實時計算(TRC)、離線計算(TDW),以資料產品的方式對外呈現於應用,業務平臺則考慮使用者接入、業務邏輯、關係型儲存的工作。

    其中,對於海量資料來說,至關重要的是 Gaia高效的資源排程,提供高併發的任務排程與資源管理,為實現秒級的資料監控與實時運算提供保證。
    Gaia高效的資源排程
    騰訊大資料應用成效

資料成為生產力,支援海量使用者產品發展。

    騰訊廣點通,精準廣告投放,
    騰訊信鴿——大資料精準移動推送

使用者留存率提升100%,使用者活躍提升100%。

    給騰訊信鴿打個廣告,網址是:http://xg.qq.com/
  遊戲模型,助力手遊精細化運營
自助分析
    自助報表

    黃金眼——快速報表

    實時監控

    使用者畫像

自:公眾賬號BLUES