大資料

 喻國明

  關於大資料分析,現實的情況是,說得人很多,鼓吹其神奇價值的喧囂聲浪很高,卻鮮見其實際運用得法的模式和方法。造成這種窘境的原因無外乎有二:一是對於大資料分析的價值邏輯尚缺乏足夠深刻的洞察;其次便是大資料分析中的某些重大要件或技術還不成熟。

  比如,提到大資料的大,一般人認為指的是它資料規模的海量——隨著人類在資料記錄、獲取及傳輸方面的技術革命,造成了資料獲得的便捷與低成本,這便使原有的以高成本方式獲得的描述人類態度或行為的、資料有限的小資料已然變成了一個巨大的、海量規模的資料包。這其實是一種不得要領、似是而非的認識。其實,前大資料時代也有海量的資料集,但由於其維度的單一,以及和人或社會有機活動狀態的剝離,而使其分析和認識真相的價值極為有限。大資料的真正價值不在於它的大,而在於它的全——空間維度上的多角度、多層次資訊的交叉復現;時間維度上的與人或社會有機體的活動相關聯的資訊的持續呈現。

  《大資料時代》一書中所引述的,一個孕婦的口味及消費模式等是有一定規律的,單一一條資訊並不足以判定你的狀態,但關於你的不同來源的資料集合一旦與孕婦特型(如果我們掌握了這個分析模型的話)高度相關,人們便很容易對你的真實狀態進行一種準確的判斷而不管你自己承認或者不承認。

  再舉個例子,面對今天社會輿情態勢,常常有人感慨:“造謠的成本很低,闢謠的成本卻很高”,抱怨現在的網路給造謠者造謠傳謠帶來的極大便利以及人民群眾過於輕信謠言。如果我們用某個事件的資料、單一的和靜態截面上的資料去觀察和分析這個問題的時候,真的可能得出上述這樣一種結論。但是,如果我們從社會傳播的總體資訊構造上去分析的時候,我們會發現,流言或謠言的猖獗不正在於一些掌握了社會資訊傳播主渠道的部門的不作為、甚至矇蔽真相所造成的嗎?因此,大資料分析的價值和意義就在於,透過多維度多層次的資料,以及歷時態的關聯資料,找到問題的癥結,直抵事實的真相。

  因此,大資料分析在方法論上需要解決的課題首先就在於:如何透過多層次、多維度的資料集實現對於某一個人、某一件事或某一種社會狀態的現實態勢的聚焦,即真相再現;其中的難點就在於,我們需要洞察哪些維度是描述一個人、一件事以及一種社會狀態存在狀態的最為關鍵性的維度,並且這些維度之間的關聯方式是怎樣的,等等。其次,如何在時間序列上離散的、貌似各不相關的資料集合中,找到一種或多種與人的活動、事件的發展以及社會的運作有機聯絡的連續性資料的分析邏輯。其中的難點就在於,我們對於離散的、貌似各不相關資料如何進行屬性標籤化的分類。概言之,不同類屬的資料集的功能聚合模型(用於特定的分析物件)以及資料的標籤化技術,是大資料分析的技術關鍵。

  除此之外,就現實而言,有質量的大資料來源常常掌握在少數權威機構、資訊服務商手中,如何開放這種大資料來源的使用,事關社會的發展和人民生活的福祉,筆者認為,應該從制度和機制上給予保障。

  (作者系中國人民大學新聞學院副院長、中國人民大學新聞與社會發展研究中心副主任、國家二級教授、中國傳媒經濟與管理研究會會長)