編者按:LinkedIn作為一家職業社交網站,通過人才招聘、廣告投放、付費訂閱等服務實現了盈利,這三項創造盈利的服務背後實際上都有著大資料探勘技術的重要貢獻。LinkedIn商業分析高階經理李玥(Michael Li)日前在Teradata天睿公司舉辦的“2013 Teradata大資料峰會”上接受新浪科技《創事記》專訪,介紹了一些LinkedIn進行資料探勘的方法論。以下是對話摘要:
創事記:能否簡要介紹一下LinkedIn?
李玥:LinkedIn是一家面向商業客戶的社交服務網站,2003年正式開通啟動,距今已經10年的歷史。2011年5月份,LinkedIn在美國納斯達克上市。目前市值接近200億美元。
LinkedIn基本上有三個比較主流的商業模式:第一個渠道是人才招聘解決方案,最主要是解決公司招聘和人員求職的供需關係,這部分業務貢獻了超過50%的收入;第二是,廣告業務,企業可以在LinkedIn網站上瞄準不同人進行廣告的精準投放;第三是,高階付費訂閱服務,LinkedIn會提供更高階的產品,使用者在付費訂閱之後,可以利用高階資料提高工作效率。
創事記:LinkedIn中國現狀是怎樣的?
李玥:關於中國的策略,我能說的非常非常有限,因為LinkedIn還沒有正式進入中國市場。現在我們在中國有超過300萬註冊使用者。LinkedIn非常瞭解,中國是一個非常非常有潛力的市場。我們在探索到底應該是以怎樣的方式進入中國,但是現在沒有定論。我們最終的目的是讓中國的職業人員能夠在職場上更成功,這一點準則不會有任何變化。
創事記:LinkedIn的資料分析團隊的工作是什麼?
李玥:這個團隊在LinkedIn上市前一年(2010年)開始建立,兩年之內團隊已經達到50人。這是在LinkedIn裡面成長最最快速度的團隊,現在我們還在不斷的成長當中。我們的責任範圍最大的一部分就是支援所有與LinkedIn運營盈利相關的服務。現在LinkedIn有近4000名員工,70%的人是通過我們來提供服務的。
我們的團隊組成是:一個資料採集的專門團隊,一個專門做資料探勘的團隊,在這之上我們還有分析的團隊和每個商業渠道掛鉤起來,這樣會更接近他們的業務。
我們跟LinkedIn所有相關的職能部門一起合作,包括銷售部門、市場營銷部門、產品部門、工程部門,還有運營部門。我們所有的資料探勘全部是通過一個技術平臺做出來的,但是在這之上,會對不同的商業應用、商業需求單獨去做處理。
創事記:每次商業分析需要處理多大的資料?
李玥:一般的資料處理起來,至少要到TB(1TB=1024GB)的水平。比如說,我們做一個預測的模型,基本上要準備的資料達到幾個TB,然後再做資料探勘,最後做出最後的預測。最後的預測可能看起來很簡單,比如說是Yes或者是No,但是後臺資料採集、資料處理,建立模型是要花費很多很多時間。
創事記:LinkedIn如何獲取這麼多的資料,這些資料都是免費的嗎?
李玥:很多的資料實際上是LinkedIn本身的資料。我們有自己的使用者,他們每天會在上面釋出不同的資訊,會更改自己的資料。我們也會花錢獲取其他資料。根據商業需求不同,我們會跟業界比較知名的資料服務商來合作,比如Gartner。
創事記:LinkedIn大資料解決方案採用哪種基礎架構?
李玥:LinkedIn整個資料分析解決方案裡主要有三個非常重要的組成部分,一個是Teradata資料倉儲解決方案,它支援很多報表系統,可靠性高;第二個是Teradata Aster,Aster有很多已經設定好的函式,可以讓分析更簡單、更快速,而且讓我們做大量分析時,變得更有效率;第三部分就是Hadoop,應用於真正特別巨大的資料處理和儲存。我們將這三種產品和平臺作為一個整體,在此基礎上做出集中的資料結構架構。Teradata為客戶提供是企業級解決方案,有專門為大公司設計定製功能,而且在這個系統裡起著非常重要的作用。
創事記:能否舉一個簡單的大資料探勘案例?
李玥:在做分析和預測的時候,怎麼樣的一個過程才能做出對將來最好的預測?我舉一個例子。比如說,市場營銷過程中你想去給特定的人群發一些訊息,說我給可以給你們你一些優惠,讓你們去購買某些產品。但你怎麼知道有哪些人會更傾向於去接受你的資訊,或者說接受你的介紹?那我們就會看,以前發生的事情。
瞭解以前發生的事情,瞭解為什麼這些事情會發生,以及它背後的原因,然後再用這些去解釋將來會發生的事情。總體上就是這樣一個大的方法。
創事記:LinkedIn在做大資料探勘時會重點參考的變數是什麼?
李玥:一般性我們看三大塊。一塊是,所有使用者相關的屬性。比如說你是男性還是女性,年齡是多少,或者說工作方式是什麼,在哪家公司,在哪個行業,在哪個地點。這些資料就是相關資訊。這些資訊基本上屬於一種比較靜態的東西,也是所有行業到現在為止,可能最成型的一種資料變數。這一塊我們看得最多。
然後是使用者的行為資料。很多公司逐漸看到這部分資料,但以前並沒有太重視。比如說,我決定去買一個投影儀,我可能之前會做很多很多的事情,最後才會決定買它。如果只是看我買它的一條記錄,那麼它只是一條資料記錄,但是之前為什麼決定買這個東西,可能會有幾千條、幾萬條不同的資訊記錄下來。
這裡邊就有很多不同的東西,包括你是不是某一種一系列的行為,才導致最後的購買決定。這一塊資料量上要大很多,從分析量上來講,難度也高很多。但根據我們的經驗,這個對你的預測的準確性貢獻,其實也增加了很多很多,所以這一塊是非常非常重要的。
第三塊是,與社交網路相關的資訊。它對你的預測也會造成非常非常大的影響。舉個例子,你在LinkedIn上或者Facebook、微博上,跟你相似的人往往會做出與你接近的決定。一個最原始的理論,物以類聚,人以群分。跟你相連線的這些人,往往他們喜歡的東西,或者他們做過的事情,是你以後可能會去做的。
根據以往的經驗,你連線的人當中,已經做過這些事情,如果我告訴你他們做過這些事情的話,你會更加的可能也會做這些事情。
創事記:還有其他變數麼?
李玥:這三大變數基本組成了我們看的最多的資料。當然每一個分類裡面,又會有很多很多的資料。其實我們會花很多的精力去採集這些資料,然後不斷地擴充我們的變數倉庫。因為隨著資料的增加,預測的準確度也會越來越高。
此外,時間序列也是非常重要的。很多時候你做的這件事情離現在有多久,會對你的預測產生很大影響。比如說,我在網站上看了一個投影儀相關的描述。如果你第二天就跟我說,我會給你50%的折扣,那我買下的可能性是很大的,因為我有很大的興趣。如果一個月之後,您再來問我,我可能就沒有很大的興趣了。這只是一個方面,但在整個時間序列裡面,多久之前發生這件事情很重要。
另外,在整個時間序列當中,行為的變化也很重要。比如說,我看這個投影儀的介紹,如果我以前是一個月看一次,但我最近變成一個禮拜看一次,或者說變成一天看一次,整個時間序列就能告訴你,我的關注點是不斷增加的。所以時間序列裡的這種模式也非常重要。