PHP 基於laravel框架獲取微博資料之二 使用者資料的使用

大尾狼發表於2019-02-16

專案地址:
https://github.com/daweilang/…

開始抓取微博資料的時候,只是想獲得一條熱門微博下的所有評論,因為裡面有不少圖片廣告,所以想試試能不能分析出熱門微博評論裡的異常使用者。

使用PHP的Laravel框架後,通過佇列、命令等各種功能,最後構架了一套完整的微博使用者資料抓取平臺,經過一段時間的執行積累了大量資料,那麼使用這些資料能做什麼呢?

微博資料分析很早就有人在做了,網上採集分析工具貌似有很多,搜尋一下想找一些微博資料分析的具體方案。世事變幻,發現很多幾年前的微博資料分析平臺都不能用了,可能微博資料分析和微博一樣在商業上還是沒有什麼更好的盈利模式。。。

根據之前網上微博資料分析的方案,微博傳播力是資料分析的一個方向,熱門微博轉發傳播可以用於廣告營銷分析,這個資料基礎是採集微博內容和傳播路徑,和我的資料獲取方式並不相同。

沒有找到使用者資料分析的解決方案,也沒有資料探勘相關知識的基礎,所以還是以一個程式設計師的角度說說微博使用者資料使用的設想吧。

使用Laravel框架搭建的平臺是以微博使用者為基礎的資料抓取模式,可以獲得某條微博下的所有評論、轉發和贊。進一步深入,獲得一個微博使用者的所有微博後,即可以獲得該使用者所發微博,包括其評論、轉發和讚的所有資料。

微博使用者的完整資料中能夠得到什麼?

一、通過微博贊積累微博使用者

微博不能重複點贊,所以一條有百萬個讚的微博就能獲得百萬使用者基礎資訊,這是積累微博使用者池效率比較高的方式,不過隨著累積量增加,重複資料變多,效率會降低。同樣評論和轉發也可以積累使用者資訊,不過重複性使得獲取資料效率不高。

二、通過資料建立關於使用者的數學模型

早就把數學模型還給大學老師了,當年這東西也沒好好學。不過還是明白一點,一個使用者,其粉絲量、微博數和轉發、評論、贊應該有一定的數學模型關係。

具體來說,百萬級的微博使用者,其微博的平均轉發、評論、贊,應該在一定的範圍內。以大量微博使用者資料為基礎可建立資料模型。這種模型可以用來評估一個微博使用者的健康性。

三、通過資料獲得使用者的活躍粉絲

一個微博使用者的完整資料,通過交叉對比可以獲得粉絲的活躍度。

當前微博除了使用者自己,其他人是不能檢視該使用者所有粉絲資料的。但是通過“共同關注”關係,可以判斷出是否是使用者粉絲。
理論上說如果有全部幾十億微博使用者資料,逐個對比,是可以獲取某使用者所有粉絲的,但這只是理論方案。
通過使用者微博下的轉發、評論、贊可縮小對比範圍,雖然不能得到使用者的所有粉絲,但能分析出和微博使用者有過互動的所有粉絲,這些粉絲的佔比可以評估出微博使用者粉絲的質量。


以上就是通過微博使用者資料抓取平臺獲得的資料後在使用方面的一些設想。

作為一個程式設計師,還是不適合寫這種理論性的東西,自己都看不懂,還是好好寫程式去吧。。。

相關文章