(三)需求分析

Rico-Coding發表於2021-01-04

文章目錄


需求

1、按條件篩選session
2、統計出符合條件的session中,訪問時長在1s-3s、4s-6s、7s-9s、10s-30s、30s-60s、1m-3m、3m-10m、10m-30m、30m以上各個範圍內的session佔比;訪問步長在1-3、4-6、7-9、10-30、30~60、60以上各個範圍內的session佔比;
3、在符合條件的session中,按照時間比例隨機抽取1000個session
4、在符合條件的session中,獲取點選、下單和支付數量排名前10的品類
5、對於排名前10的品類,分別獲取其點選次數排名前10的session

宣告第一點,上節課的話,其實我們就已經進入了正規的企業級大資料專案的開發流程,第一個步驟就是資料調研(就是對底層基於的基礎資料的表結構進行調研、分析和研究);然後本節課,相當於是專案開發流程的第二個步驟,就是需求分析(在實際的企業中,需求分析,可能會比這裡更加複雜很多;在網際網路企業中,需求分析,首先就是要跟PM,就是產品經理,也就是負責設計你開發的大資料平臺產品的人,去大量開會,去溝通需求的細節;此外,你自己還得根據產品經理編寫的需求文件,可能還會自己設計一些產品原型圖出來,讓你看,去看,去研究;然後第三點,可能還需要作為一個專案的技術leader,去跟你的專案組內的成員,去講解和討論需求,要確保組內所有成員,都對需求清晰的理解了)

1、按條件篩選session
搜尋過某些關鍵詞的使用者、訪問時間在某個時間段內的使用者、年齡在某個範圍內的使用者、職業在某個範圍內的使用者、所在某個城市的使用者,發起的session。找到對應的這些使用者的session,也就是我們所說的第一步,按條件篩選session。
這個功能,就最大的作用就是靈活。也就是說,可以讓使用者,對感興趣的和關係的使用者群體,進行後續各種複雜業務邏輯的統計和分析,那麼拿到的結果資料,就是隻是針對特殊使用者群體的分析結果;而不是對所有使用者進行分析的泛泛的分析結果。比如說,現在某個企業高層,就是想看到使用者群體中,28~35歲的,老師職業的群體,對應的一些統計和分析的結果資料,從而輔助高管進行公司戰略上的決策制定。

2、統計出符合條件的session中,訪問時長在1s-3s、4s-6s、7s-9s、10s-30s、30s-60s、1m-3m、3m-10m、10m-30m、30m以上各個範圍內的session佔比;訪問步長在1-3、4-6、7-9、10-30、30~60、60以上各個範圍內的session佔比;
session訪問時長,也就是說一個session對應的開始的action,到結束的action,之間的時間範圍;還有,就是訪問步長,指的是,一個session執行期間內,依次點選過多少個頁面,比如說,一次session,維持了1分鐘,那麼訪問時長就是1m,然後在這1分鐘內,點選了10個頁面,那麼session的訪問步長,就是10.
比如說,符合第一步篩選出來的session的數量大概是有1000萬個。那麼裡面,我們要計算出,訪問時長在1s-3s內的session的數量,併除以符合條件的總session數量(比如1000萬),比如是100萬/1000萬,那麼1s~3s內的session佔比就是10%。依次類推,這裡說的統計,就是這個意思。
這個功能的作用,其實就是,可以讓人從全域性的角度看到,符合某些條件的使用者群體,使用我們的產品的一些習慣。比如大多數人,到底是會在產品中停留多長時間,大多數人,會在一次使用產品的過程中,訪問多少個頁面。那麼對於使用者來說,有一個全域性和清晰的認識。

3、在符合條件的session中,按照時間比例隨機抽取1000個session
這個按照時間比例是什麼意思呢?隨機抽取本身是很簡單的,但是按照時間比例,就很複雜了。比如說,這一天總共有1000萬的session。那麼我現在總共要從這1000萬session中,隨機抽取出來1000個session。但是這個隨機不是那麼簡單的。需要做到如下幾點要求:首先,如果這一天的12:00~13:00的session數量是100萬,那麼這個小時的session佔比就是1/10,那麼這個小時中的100萬的session,我們就要抽取1/10 * 1000 = 100個。然後再從這個小時的100萬session中,隨機抽取出100個session。以此類推,其他小時的抽取也是這樣做。
這個功能的作用,是說,可以讓使用者,能夠對於符合條件的session,按照時間比例均勻的隨機取樣出1000個session,然後觀察每個session具體的點選流/行為,比如先進入了首頁、然後點選了食品品類、然後點選了雨潤火腿腸商品、然後搜尋了火腿腸罐頭的關鍵詞、接著對王中王火腿腸下了訂單、最後對訂單做了支付。
之所以要做到按時間比例隨機採用抽取,就是要做到,觀察樣本的公平性。

4、在符合條件的session中,獲取點選、下單和支付數量排名前10的品類
什麼意思呢,對於這些session,每個session可能都會對一些品類的商品進行點選、下單和支付等等行為。那麼現在就需要獲取這些session點選、下單和支付數量排名前10的最熱門的品類。也就是說,要計算出所有這些session對各個品類的點選、下單和支付的次數,然後按照這三個屬性進行排序,獲取前10個品類。
這個功能,很重要,就可以讓我們明白,就是符合條件的使用者,他最感興趣的商品是什麼種類。這個可以讓公司裡的人,清晰地瞭解到不同層次、不同型別的使用者的心理和喜好。

5、對於排名前10的品類,分別獲取其點選次數排名前10的session
這個就是說,對於top10的品類,每一個都要獲取對它點選次數排名前10的session。
這個功能,可以讓我們看到,對某個使用者群體最感興趣的品類,各個品類最感興趣最典型的使用者的session的行為。

相關文章