利用社交媒體上發表的內容來自動推斷使用者特徵,對於社會科學、市場學和政治學研究有著非常重要的意義。近日,賓夕法尼亞大學的Daniel Preoţiuc-Pietro等人就利用Twitter上的資料構建了預測使用者收入的模型。該模型很好的揭露了不同特徵分類和收入之間的關係,同時也發現了很多有意思的現象。
隨著資訊科技的迅速發展,社交媒體也開始為越來越多的人提供服務。社交網站中所接收的使用者資料也隨之飛速增長,為社會科學中複雜問題的研究提供了充分支撐。對這些資料的分析可以很好的披露出語言模式和使用者特徵(如位置、年紀以及政治傾向等)。由此,這些資訊可以用於大規模社會科學研究,並可幫助進行更有針對性的廣告營銷等。
Daniel等人的研究以自動推導社交媒體中使用者的收入為出發點。在訓練和測試階段,該團隊使用了已經表明收入的Twitter使用者資料集,其中包括了Twitter平臺的相關統計資料和歷史內容。為了便於分析,Daniel等人的研究以Twitter使用者和職位之間的對映為基礎,採用了英國政府的標準化職業分類(Standard Occupational Classification,SOC)方法,將所有職業根據職能要求和內容分成了9個大組。最終的測試資料就牽涉到了9個組的5191個使用者,及其10,796,836條留言。
預測模型使用了很多特徵作為參考,包括了簡單的使用者簡歷特徵(如朋友數量、追隨者數量以及平均每天留言的數量等)、人口統計特徵(如年紀、性別、政治傾向以及智力等)、使用者情緒特徵(開心的、傷心的、生氣的以及驚訝的留言的比例等)和淺層的文字特徵(非複製留言的比例、轉發留言的比例以及平均的留言數量等)。
而且,他們採用了線性和非線性學習演算法來構建收入模型。其線性學習演算法使用的是帶Elastic Net調節的logistic迴歸分析。第一個非線性學習演算法則使用帶徑向基核函式(Radial Basis Function ,RBF)的支援向量機(Support Vector Machine,SVM)。但由於SVM並不支援指定最重要的若干特徵,Daniel等人又採用高斯過程(Gaussian Process)構建了一個貝葉斯非引數化的統計框架。最後,預測模型把所有特徵集模型的結果採用線性權重的方式結合在了一起。
為了測量預測模型的精確度,Daniel等人的研究首先針對使用者收入進行了評估,其試驗過程採用了十折交叉驗證:把原始的資料隨機分成10個部分,選擇其中一個作為測試資料,一個作為引數微調的資料,剩下的8個作為訓練資料。最終結果表明,使用者資料和使用者發表的內容之間的皮爾遜相關係數最大可達到0.633(0.6-0.8表示“強相關”),證實了模型的精確性。
該工作的另外一個目標是深入發掘Twitter上與使用者收入相關的特徵。通過檢查模型的輸出和對引數進行量化分析,團隊發掘出了收入和語言使用以及Twitter中使用者行為之間的關係,其中包括了很多已知和未知的現象。例如,已經為公眾所接受和熟知的現象是:收入和受教育程度、智力、年齡以及性別等相關。另外的一些發現就顯得特別有意思:無派別且生活從容的使用者收入較高;收入越高的使用者越容易產生生氣和懼怕的情緒,從而經常發表一些感性的內容;高收入使用者更多地談論政治,非政府組織以及合作的話題,而低收入者則更多地傾向於使用低俗語言。
via:InfoQ中文站