大資料時代下的社交圖譜與興趣圖譜

shenmanli發表於2018-04-03

如果把全球所有的行動電話和使用者的通話記錄放在一起,是大資料嗎?

所有入口網站,幾個大的入口網站等每天產生的新聞,是大資料嗎?

第一個資料來源是大資料。因為我們之間的通話、交往的過程,它是一個網路狀的,是超線性增長的,並且我們通話內容是非常複雜的,具有複雜的資料結構,包括我們的時間及方方面面的演算法。

第二如果只是每天產生的新聞,它不算大資料,因為這個量有限,每天也就是大概幾十萬、上百萬條,而且每天增長也是有限的。但是,如果把使用者的瀏覽記錄甚至把新聞的內容,比如對這個文字做分解,把文字之間產生互相的聯絡的話,這就算大資料。

個性化推薦技術

個性化推薦技術可以帶來非常大的效果上的提升。它最大的優勢就在於新使用者的轉化率,尤其是新使用者在頭幾個訪問的時候,如果你能抓住他的興趣,迅速給他推薦一些他感興趣的產品,或者是感興趣的資訊,它的轉化率將大大提升。

大資料時代下的社交圖譜與興趣圖譜

在做社交圖譜時,發現其比興趣圖譜要複雜的多,它的複雜其實來源於一個是人與人關係的複雜性。人跟產品之間的關係相對比較簡單,我喜歡這個產品,我不喜歡這個產品,這個描述大概能描述你80%的情況。

但是人跟人之間的關係就很複雜,沒有一個簡單的或者清晰的模型去描述這個複雜性,或者人與人之間關係很難用單一緯度描述。第二人與人之間互動在網站上表現成文字,現在互相回帖或者互相說話等,這個語義的複雜性也不是現在計算機技術能夠完全掌握,或者完全攻克的一個難題,所以語義的複雜性也帶來描述人和人之間關係的複雜性。

興趣圖譜跟社交圖譜的區別

興趣圖譜中的人群更多是一個生人的網路,大家來到興趣圖譜之前互相之間不太認識,依據興趣來結合新的網路。但是,社交圖譜更多是熟人的網路,尤其是強社交的關係,像大家現在用的微信,手機裡的通訊錄等等,這個是熟人的關係。不同人群它表現出的特點其實也不太一樣。

社交圖譜在黏性上和頻度上都很高,但它在永續性上,有時候有的產品比較高,但是有的產品其實也沒有那麼高。興趣圖譜一般來說黏性和頻度都沒有那麼高,但是它的永續性會比較好一些,因為興趣一般都會是長期的興趣。依據這樣不同的特點,在我們做個性化推薦的時候可以有不同的一些考量。

如果你有上億量級的使用者,每個使用者細分的興趣大概有上千種,整個使用者的興趣。每個使用者相對比較強的社交的關係有幾百種。乘起來就會是一個非常大的資料量,也即我們會用幾十萬的維的向量描述一個人,甚至擺成一千量級的資料描述一個人,我們還要找人跟人之間的關係,在資料上就會是非常大的一個挑戰。

大資料時代下的社交圖譜與興趣圖譜

目前很多線上推薦系統是除融合興趣圖譜和社交圖譜外,給使用者一個引導,能夠幫助使用者發現它真正有價值的東西。

其實現在個性化推薦往往很難解決一個“驚喜”問題。主要要解決的就是幫助使用者進一步探索他未知的,而且對他很有用的,能給他帶來驚喜的推薦領域。

相關文章