這些事情正在發生:倫敦的閃爍之眼

對於正在倫敦參加奧運會的選手和觀眾來說,除了賽場上激烈的比賽之外,另一個地方也值得一看,那就是泰晤士河岸的倫敦之眼。在奧運期間,每晚 9 點到 10 點,這個世界最大摩天輪之一的倫敦之眼都會變成一個巨大的情緒指示器,會根據當天 Twitter 使用者對奧運的不同情緒進行點亮。

<embed>

這一被稱為 Energy of the Nation 的專案從 Twitter 公共時間線中篩選出來自英國本土、帶有“Olympics”、“London 2012”等與本次奧運會相關詞條的資訊。掃描這些資訊中帶情緒意義的詞彙(如“brilliant”、“failure”、“very”、“never”)、語調(如“!!!”、“?!”)、甚至表情(如“:(”、“:)”),通過演算法評估出大眾對於這次奧運會的情緒態度指數。倫敦之眼展示的只是一個模糊的情緒比例,而在專案官方網站上則可以看到各種各樣詳細的資料,包括熱門地區、熱門關鍵詞、Twitter 資訊分佈等,甚至還有實時的資訊流動的地圖(酷!)

從這其中,我們可以看到很多有趣的現象,如今天熱門關鍵詞的第二位“cheat”,很明顯是對應昨日羽毛球混雙比賽中,球員消極比賽被退賽事件的反應。

美國的政治晴雨

而正在今天,Twitter 也聯合社交分析服務商 Topsy、兩家民調機構,釋出了針對 2012 美國大選的“Twitter 政治指數”(Twitter Political Index)。通過對提及到兩位候選人的 Twitter 資訊的情緒指數與其他主題 Twitter 資訊的情緒指數進行比較,預估廣大選民對兩位候選人的滿意程度。

以當前資料為例,現任總統奧巴馬的 44 分表明,包含奧巴馬關鍵詞的 Twitter 資訊表達出的積極情緒比 Twitter 全站 44% 資訊的情緒要高。而羅姆尼的 26 分則 Twitter 使用者對其積極情緒高於 26% 的資訊資料。如果覺得 Twitter 提供的資訊還比較模糊,USA Today 的大選網站在 Twitter 資料的基礎上,還呈現出了不同時間點上,決定民意走向的一些關鍵事件的相關 Twitter 資訊,讓我們能夠更清晰的瞭解資料背後的意義。

星球的脈動

Twitter 曾經在洩漏出的內部檔案裡將自己定義為“星球的脈動”。在阿拉伯之春中、在日本大地震中、在奧羅拉槍擊事件中,以 Twitter 為首的社交網路以其病毒式的資訊傳播速度、對最基層使用者的調動參與展示了自己的力量,但也有人認為,社交網路上飛速流逝的資訊流並沒有長久的價值。然而我們看到,包括社交網路的網際網路大資料對企業、對政府、對研究機構來說,已經開始帶來積極的價值。但所謂社交網路大資料真的能夠反應最普遍的真實民意嗎?

資料與民意

雖然在 Facebook IPO 中,社交媒體監測平臺 Datasift 對 Twitter 上相關資訊的監測顯示,Twitter 上與 Facebook 相關的情緒傾向與 Facebook 隨後的股票走向呈現直接的正相關;美國政府早已開始利用 Facebook、Twitter 等網站的資料,綜合傳統報紙、電視、廣播等媒體的資訊來監測國內和世界各地的輿情變化,效果也相當顯著。但就目前而言,僅憑這一渠道的資料,還無法獲得真正準確的結論。

  1. 目前研究人員對於社交網路資料的挖掘方式還處在比較初級的階段。以倫敦奧運會為例,倫敦之眼專案主要依靠的是對錶達情緒的關鍵詞進行匹配的方法,輔以對語調、表情的分析,但在日常口語的表達中,諷刺、反語或是不同的使用場景都會讓一個詞語的實際意義發生變化,而預先固定的匹配詞庫也可能對資訊的收集帶來了限制。研究者表示,通過大量資料的累積,這一類偏差大多可以被抵消,但對語義進行更精細的分析無疑是想要達到更準確結論必須解決的問題。
  2. 雖然 Twitter、Facebook、微博的使用者已經開始擴充套件到更廣泛的使用者群體,但其依然無法普遍代表整個社會群體,特別是老人、低收入、欠發達地區的人群在這些渠道中顯著的缺失代表。當然,隨著網際網路的繼續普及,這並不是不能解決的問題。

Twitter 在部落格中也表示,就像雷達、衛星的出現對傳統以溫度計、氣壓計為主要資料來源的氣象學來說是一個重要的補充一樣,社交網路上的資料在今天也可以為使用者調研、輿情觀察進行輔助和補充。例如在許多交通不便,無法進行現場民意調查的地方,人們可能可以通過手機上網發表意見,而這是傳統調查無法覆蓋到的。Twitter 過去兩年的政治指數資料顯示,其與常用的民意調查 Gallup 在大多數情況下趨勢都保持一致,這說明了社交網路大資料在一般情況下還是可靠的;在當兩者趨勢不一致時,卻也能帶來更多有趣的資訊。如在本拉登被擊斃後,Twitter 上奧巴馬的滿意度指數在上升後,比 Gallup 的資料更早的開始回落,更進一步的資料顯示,這是因為 Twitter 上的相關討論更多的迴歸到了國內依然肆虐的經濟危機上,這一資料的差異可以為政府評估任務提供重要的參考。

當然,利用網際網路的大資料進行使用者分析並不是一件新事,搜尋引擎的熱門搜尋詞條(如最典型的 Google 搜尋趨勢)在包括卡特里娜颶風、智利大地震、中國禽流感危機等許多事件中發揮了重要的作用並繼續在新的事件中展示自己的力量。但我們可以看到,傳統的民意調查、搜尋趨勢、社交資料分析三者獲得的資料有各自不同的特徵,傳統的民意調查獲得的是被調查者對於他人觀點的看法,搜尋趨勢獲得的是搜尋者對某個東西或事件表達的興趣,而社交資料揭示的是使用者自己對某個問題的態度和觀點。其中傳統民意調查在未來可能被搜尋引擎、社交網路的功能所代替,但搜尋引擎、社交網路在目前來說,兩者資料依然具有各自重要的意義(題外話:很多分析人士認為,這也是為什麼 Google 廣告比 Facebook 廣告有效的原因。)

資料的商業價值

當然,我們不能忘記,所謂大資料在搜尋引擎、社交網路之外還有很多其他的使用場景,“大資料所能帶來的巨大商業價值已經被人認為將引領一場足以匹敵 20 世紀計算機革命的巨大變革”。亞馬遜精準的商品推薦、McKesson 高效的物流調配、沃爾沃持續的零件缺陷監測,都受益於對大資料的合理利用,為其服務帶來了更好的反饋和改良機制。那麼,你認為下一個藉助大資料崛起的公司會是哪一家呢?