Hadoop離線資料分析平臺實戰——340瀏覽器PV分析

weixin_33912445發表於2017-09-03

Hadoop離線資料分析平臺實戰——340瀏覽器PV分析

專案進度

模組名稱 完成情況
使用者基本資訊分析(MR)� 完成
瀏覽器資訊分析(MR) 未完成
地域資訊分析(MR) 未完成
外鏈資訊分析(MR) 未完成
使用者瀏覽深度分析(Hive) 未完成
訂單分析(Hive) 未完成
事件分析(Hive) 未完成

模組介紹

在瀏覽器資訊分析模組中除了使用者、會員和會話的分析外,
還有pv的分析,pv的計算可以代表網站的流量值,
也能夠表示網站對使用者的吸引程度,如果使用者平均pv比較高,
那麼表示網站對使用者的引起程度比較高;如果是值比較低,
那麼表示網站對使用者的吸引程度比較低。
這個時候,就可以通過跳出率等其他統計指標來找出網站的問題所在。

計算規則

pv的計算其實就是計算訪問url的次數,
不涉及的去重,也就是說一個使用者訪問一個url多少次就算多少pv值。
也就是說最終結果是一個pageview事件產生一個pv值,不涉及到任何去重操作。

最終資料儲存:stats_device_browser。
涉及到的列(除了維度列和created列外):pv。
涉及到其他表有dimension_platform、dimension_date、dimension_browser。

編碼步驟

  1. MapReduce程式碼編寫
  2. collector和xml配置等
  3. 測試
    擴充套件:在計算pv值後,可以計算跳出率以及各個頁面的情況,
    可以將頁面分為三大類,進入頁面、正常瀏覽頁面以及退出頁面(按照會話來分析)。
    在一個會話中,pageview事件中referrer url是其他網站的訪問就是進入頁面的訪問
    ,referrer url是本網站的表示是一個正常的瀏覽頁面,
    會話中的最後一個訪問頁面是退出頁面以及進入頁面的上一個pageview事件(同一個會話)中的頁面算做退出頁面。

相關文章