兩年多前,英國人維克托·邁爾·舍恩伯格所著《大資料時代:生活、工作與思維的大變革》出版了中譯本①,此後,“大資料”便似乎突然滲透進國人生活的方方面面。面臨新技術衝擊而亟待全面轉型的傳媒業似乎發現了“救命稻草”,各種新銳或貌似新銳的新聞報導,動輒頂著“大資料”的名號問世。似乎大資料的概念和應用,天生就是新聞業的專寵。其實,凡是認真閱讀過這部著作的人都知道,至少舍恩伯格原著中所謂的大資料以及總結的相關思維特點,來自於以計算機技術為支撐的IT產業及其運用;而基於海量資料的蒐集和分析技術,最直接的應用首先在於生活、商業、金融等更為廣泛的領域。當然,以資訊科技為核心的新技術具有相連互通的特點,當代新聞業完全可以、也應當學習和借鑑大資料的方法和思維。但是這種學習和借鑑必須契合新聞傳播的屬性和功能,尤其必須結合我國新聞業所處的基本國情和發展階段,以實事求是的評估與抉擇為基礎,才能真正以為他山之石。然而兩年後的今天,國內新聞業界對於“大資料”的盲目崇拜不減,不少認識、理解和操作的誤區依然存在。一些研究學者雖然呼籲對此保持警惕,但較為全面和深入的討論並不多見,在此有必要提出探討。

1458573121-4033-3417eb9bbd901855d5982c
什麼是“大資料新聞”

當下國內的傳媒業,大凡重要的主題報導,各類媒體平臺時常可見多樣的新聞報導樣式,例如資料解讀、圖表分析、視訊與文字的混搭等等。突出者如今年的兩會報導,新聞業界樂觀地認為,一大亮點就是對於大資料的充分運用。而在這幾年的行業論文中,不少用以證明大資料的應用例項,也多是這類形式的新聞報導。應當說,新聞形式的多樣發展,融合媒體的迅速崛起,當然是新聞界的利好訊息。但是靜心細究,我們必須承認,上述這些當下常見的樣式,可以稱之為資料新聞、精確新聞、圖表新聞甚或多媒體新聞,但卻難以歸為“大資料新聞”。尤其應當辯明的是,一般意義上的“資料新聞”,與“大資料新聞”完全是兩個概念,不可混淆,更不能等同。最根本的原因在於,所謂“資料新聞”變化的只是呈現形式,核心依然是傳統的新聞理念和操作手法。

在舍恩伯格的原著中,他對大資料的特徵概括為:非抽樣而是全體、非精確而是模糊、非因果而是相關。後兩條雖然有助於啟迪思維,但至少在概念內涵上,與新聞歷來崇尚真實、精確、注重因果關係等本質特徵和功能效用有所牴牾,其在新聞業的應用價值尚有待探索與驗證。因此當下新聞業對於大資料的應用,通常集中於第一條。不過對於新聞而言,什麼樣的資料樣本可稱之為“全”,什麼樣的新聞屬於大資料新聞?這是首先必須明晰的。例如新華網多媒體產品中心2014年10月28日製作的一篇“資料新聞”,名為《拔河比賽中如何戰勝對手》,共由六個頁面組成。第一主頁題為“起源中國風行世界”,以世界地圖為底,插入一些加指示圖示的資料說明,例如:“國際拔河比賽起源於英國,1900年至1920年期間被列為奧運會正式比賽專案。”“日本萬人拔河大賽,用繩200米,1.7萬人參賽,打破吉尼斯世界紀錄。”(參圖1)顯然,這種“抽樣”式的資料呈現,核心仍是傳統新聞理念和操作方法,所以命名為“資料新聞”是恰當的,但讀者不可誤以為這就是大資料新聞。至於其自第二頁主題“拔河比賽挑選隊員的原則”起,以下“拔河比賽要領”“拔河比賽技巧”“拔河應注意的安全問題”“拔河比賽後的身體恢復”共五個主題頁中,每個頁面只有配以漫畫的文字敘述,完全沒有任何資料展示,則連“資料新聞”都不是。

依照舍恩伯格的定義,“大資料新聞”應當體現的“非抽樣而是全體”,不僅是基於有關新聞事件的“全樣本”(即窮盡所有相關資料)所引匯出的全方位和全形度,更是一種思維模式,即用全面的眼光來看待事實,用整體的樣本來分析聯絡。他在書中所列舉的沃爾瑪超市中啤酒與尿布的現象、亞馬遜向讀者推薦書籍的模式,就都是大資料思維的典型。至於其在新聞領域的應用,人大教授彭蘭曾提出,“大資料新聞”不只是資料呈現,而是資訊圖表驅動下的新聞發現和深化②。換言之,大資料新聞應該是用全方位的資料去驅動新聞線索的挖掘和新聞事實的揭露。從這個意義上說,大資料新聞是一個很苛刻的標準,需要有全新的思維方式,也要有強大的硬體支撐。

如果著眼於新聞的呈現,則可以說,資料的呈現並非判別大資料新聞的根本標誌。真正的大資料新聞,其核心是運用大資料的方法認識和報導事實,只要符合這個前提,即便主要是文字的報導,同樣可以是大資料新聞。在當下的國際和國內新聞界,真正有代表性的大資料新聞並不多見。公認較為成功的案例有英國倫敦發生騷亂時,針對推特內容進行的輿情分析報導。而在國內,2014年1月25日央視晚間新聞播出“據說春運”節目,也大體可視為大資料的較好應用。這並非只是因為節目報導中顯示了翔實的旅客流量資訊和資料圖表,更是因為這次的報導是在全國範圍內,首次通過近乎全體的資料樣本,分析探討了春運這個特別時段我國人口遷移的走向和趨勢,“還從大資料中找到做新聞的點,展開關於春運、春節的故事。內容的選擇不再只是從傳者視角單方面揣測新聞敏感,而且融入了使用者的需求,基本上是點餐式的服務。”③

什麼樣的新聞適用大資料技術

基於邏輯的分析,既然大資料的核心是全資料、全形度,那麼在技術允許的條件下,只要能找到有關一個新聞事件的“全樣本”,任何型別的新聞都可以做成大資料新聞。但是,“可以”並不意味著“適合”。例如一篇典型人物報導,我們或許可以藉助大資料技術窮盡其基本資訊,據此寫成一篇全景式的人物描述,但其典型性和生命力卻可能湮沒於資料之中,從而難以顯現其價值引導的意義。此時大資料的應用,效果也許適得其反。所以我們在前文指出,大資料的運用,必須契合新聞傳播的屬性和功能。但至少就目前階段而言,媒體行業在大資料的運用與新聞理念及操作之間,尚存不少問題或矛盾,主要可以分為現實技術的侷限以及根本性質上的矛盾兩大方面,值得我們認真思考並探索解決的方法。

(一)現實技術的侷限

其實,作為概念的提出,“大資料”一詞雖然具有創新性,但在技術層面卻並非全新的突破,它只是“資訊科技的子集,僅僅是海量資訊的統計分析方法,並不具有嶄新的時代特徵。”④而且,它現存的技術瓶頸未來可望突破和完善,但在現下,卻對在新聞業的運用形成某些限制:

1. 一般的新聞機構獲取資料資源困難

掌握海量的資料資料是大資料技術應用的前提,舍此一切免談。在理想的大資料時代,各種資料應該是容易獲取甚至大多是自由開放的,大資料專家塗子沛強調了資料資訊首先在國家內部公開的重要性,他稱之為“內開放”⑤。

而在我國,現實的情況是政府掌握的公共資料尚未能完全公開透明,其他領域的資訊資料則被網際網路巨頭們依靠其自身技術便利所壟斷。例如,百度掌握著公眾出行的資料,阿里巴巴擁有海量的公眾網上消費資料,騰訊也蒐集了難以計數的網民社交資訊資料。這些有價值的資料一般都被他們移用於商業用途。而國內的新聞媒體,則由於職業限制,不具備相應的硬體裝置和技術,既很難接觸和使用這些技術公司所積累的原始海量資料,一般也沒有能力根據新聞需求進行大範圍的資料採集工作。即便號稱中國實力最強大的央視,其“據說春運”節目也必須與百度合作,否則難以靠一己之力獲取足以支撐報導內容的資料資訊。總之,至少在目前階段,獲取大資料是一項技術、資金、時間上的多重消耗,我國大部分的新聞媒體尚不具備這樣的條件。

2.基於大資料的新聞推送導致資訊窄化

《大資料時代》一書所舉的亞馬遜公司通過大資料分析,給不同顧客推送特定商品成為大資料應用的典型案例。受此啟發,當下許多新聞媒體將這種技術移植到了新聞客戶端中,嘗試給使用者推送他們可能感興趣的新聞資訊,實現以“私人定製”為特色的“精準推送”和“個性化服務”。

但是,這種基於大資料技術的精準推送,卻會使個人接觸到的資訊無形中越來越偏向於自己感興趣的領域。而且,這種資訊傳受的過程還處在不斷調整之中,使用者對於特定資訊慣性接觸的次數越多,再一次的推送內容也就會以專業化的名目越來越窄化。長此以往,這種技術選擇的機制就會構築一道無形的資訊獄牆,將其他領域的資訊隔絕在外。正如陳力丹教授所言:“新媒體基於使用者興趣而提供的精準資訊推送,長此以往將造成使用者資訊無形中的‘窄化’,我們只接收我們選擇的東西和愉悅我們的東西。”⑥

況且,這些新聞推送所依據的大資料,只是根據使用者以往主要的閱讀喜好加以分析得出。但人們獲知資訊和閱讀新聞畢竟不等於只滿足其部分需求的網上購物,人們的好奇心和求知慾需要得到各方面資訊的滿足,而且其以往的喜好也有可能發生改變。因此,只是根據以往的主要喜好長期不變地推送相關資訊,事實上也可能難以滿足使用者的現實需求。正如即便是體育迷所需要的也不只是體育新聞,而娛樂迷所需要的也不可能只是明星八卦一樣。當然這並不是大資料技術本身有什麼問題,只是在目前,由於技術或資金等限制,網際網路公司對於使用者的資訊和資料收集得還不夠充分和完整,換句話說也就是還沒有真正達到全樣本的高度,同時也還無法做到區分出主次關係的多型別豐富資訊的綜合性整體推送。

3.大資料運用讓隱私權更難保證

在傳統的新聞採訪和報導中,個人隱私權的保護就是一個時常被提出的問題。而大資料時代的到來,使得個人多方面資訊更容易被他人所掌握。另一方面,公民對於個人權利重視意識也日益提升,因此,圍繞隱私權保護的矛盾勢必會成為一個日漸突出的問題。

當下IT行業技術公司的資料收集者,一般會與使用者簽署某種形式的網路協議,以達到告知的效果。但由於新聞媒體不是資料的收集者和擁有者,它們只是作為第三方去借用商業公司的資料資訊,這其中就涉及是否做到知情同意、是否侵犯隱私的問題。此外,網路公司使用大資料資訊大多隻用於自己的商業開發,一般不會將資訊隨意外洩。但是新聞媒體使用這些資料進行報導時,卻很可能在不經意間將一些使用者的個人資訊資料公開,這也容易造成侵犯他人隱私的問題。甚至,任何新聞媒體只要是以第三方的身份從資訊科技公司獲取這類個人資料資訊,因為並非與使用者達成網上告知協議的責任人,哪怕最終沒有寫成報導或者報導沒有見諸媒體,都有侵犯個人隱私之嫌,只是擴散的範圍有所區別而已。因此,在當前有關個人資訊保護的法律法規還不完善的情況下,在大資料技術還不能充分地保護資料提供者的隱私時,新聞媒體使用社會公眾的大資料資訊存在著一定的侵權隱患。

(二)根本性質上的矛盾

現代新聞業經過百年發展已經形成了一套自己的邏輯和規範,例如及時地傳遞各種訊息、客觀地報導社會現實、準確地揭示事件的原因和趨勢等等,都已成為公認的新聞業的使命,也是新聞報導的價值所在。但正如我們在前文提到,作為一種技術的大資料分析與應用,基於其自身的性質和特點,其中一些至少目前來看,與新聞及媒體的性質背道而馳:

1. 模糊性與精確性的對立

許多學者將大資料的特點概括成“4V”(volume、velocity、value、variety),亦即海量、高速、價值和多樣。其中最顯著也最重要的,無疑是大資料的海量性。本文之前提及,大資料核心在於“全”,雖然全樣本不一定意味著絕對意義上的海量,但是相對於過去的抽樣資料,還是意味著達到足夠的數量級。接踵而來的問題是,大量的資料必然導致其中一部分資料不夠準確,據此而進行的分析也就難以達到精確。因此,舍恩伯格在他的書中倡導人們認識並歡迎這種模糊性,而不是一味盯著“準確無疑”不放;而他通過大資料分析演示並啟示讀者的,更多是關於某種傾向的預測性工作。既然是預測,也就不必要求完全準確。

可是對新聞來說,準確是最重要的原則。因為唯有在所有細節上做到準確,才能保證所報導事實的真實。而事實真實,則永遠是新聞的第一鐵律,這是全球新聞界所公認而且共同堅守的。因此,上世紀70年代,美國興起了精確新聞學,開始用社會科學的方法輔助新聞報導,以增強新聞的準確性。當下興盛的資料新聞,本質上其實是精確新聞的一種呈現方式,因為藉助原始的資料顯示,才能使新聞報導變得更加真實可信。而且,隨著社會的發展和海量資訊的紛至沓來,出於生活或者工作中的需要,讀者對於新聞媒體的要求會越來越高:“對於受眾來說,既希望報導者在巨集觀層面上具有洞察力,又要求報導者在微觀層面上體現精確度,對於不具備微觀層面精確度的報導則難以容忍。”⑦ 這就與大資料技術及其思維所崇尚的模糊性,形成了一定程度的對立。

2. 相關關係和因果關係的取捨

說到底,大資料是一個預測可能性的技術,它能告訴我們趨勢是什麼,卻難以說出為什麼,亦即我們常說的知其然而不知其所以然。因此,舍恩伯格在《大資料時代》中倡導用相關關係去取代因果關係,就引起了極大的爭議,至少在新聞領域是如此。所以喻國明先生在他的專著中提到,大資料不是建立在因果關係基礎上的,因此也就不適用於“從果到因”的推定。⑧

誠然,有些時候,現實世界中不同事物之間的因果關係很難說清楚,但是對於新聞乃至媒體而言,縱使再困難,揭示原因、探尋真相以指導現實,則是其立身之本。而且,當現實社會愈加資訊多元,事實表象愈加紛繁複雜時,這種需求也就會越發強烈,這正是當下分析性、解釋性的深度報導興盛的原因。而大資料技術在解釋因果方面具有的先天不足,再加上海量的資訊容易讓人陷入各類資料陷阱,這都不利於新聞報導對於事實的準確闡釋和分析。因此,既然新聞業不可能放棄對因果關係的探尋,那麼媒體在採用大資料技術時就該慎之又慎。記者在條件允許的情況下可以用大資料來尋找趨勢,輔助自己找尋新聞線索和報導方向,甚至作為自己寫作的部分參考,但若是動輒緊扣大資料,則無疑會給新聞實踐帶來問題。

3.技術決定論與人文精神的衝突

現代科技的發展及所形成的技術主導思潮,使得主體與客體、人與物的關係越發緊張,這是科技從來都是雙刃劍的現實表現之一。今天的我們,日益離不開機器和自動化設施,也日益沉溺於現代科技帶來的物質享受,享樂主義、金錢至上被更多的人奉為行為處事的準則。我們當然不能把人文精神的喪失完全歸咎於現代科技,但這的確值得我們提高警惕:“正確認識事物的是非和利害,遵循人文精神是更為重要的前提。缺少這個前提,‘大資料’不僅毫無用處,而且能為謬論尋求支援的資料。”⑨大資料的邏輯有時候很簡單,某種趨勢有利可圖,於是就按照大資料指示的去做,這在商業行為中無可指摘。但新聞媒體尤其是我國的新聞機構,需要肩負自己的社會責任,需要維護基本的社會道德和價值觀念,更需要為“兩個一百年”建設目標和中華民族偉大復興“中國夢”的實現,發揮自己應有的作用。當新聞報導需要倡導一種精神風尚時,缺少人文精神和價值觀念的引領,大資料就會顯得蒼白無力。

此外,大資料的濫用,還有可能造成工作領域內人的主觀能動性的喪失,甚至產生對人的主體性存在的質疑。大資料的出現和技術的廣泛應用,在全球範圍內已經導致一些新聞媒體去思考和探索模板新聞、機器人新聞實現的可能性,甚至有人質疑未來是否還需要記者這一專門職業。這其實是技術決定論的又一表現形式。但是,如果人的主觀能動性真的喪失,甚至作為記者的人的主體性存在都真的消失,完全依靠大資料技術所生產出的新聞,能夠滿足人的多種需求、尤其是精神領域的需求嗎? 這又是一個嚴峻的問題。

綜上所述,大資料技術與新聞及媒體行業的屬性和功能,絕不像一些樂觀論調裡所想象的那般匹配,兩者之間事實上尚存許多難以共融之處。我們應該更加深刻地認識當下大資料技術的不足和侷限,而不是人云亦云地為新技術的到來而盲目歡呼。當然,我們也不必拒斥大資料技術,大資料新聞可以成為新聞報導的一個分支,例如預測性新聞、資料驅動的新聞,都可以是有所作為的領域。

哪些因素限制大資料技術在我國的新聞運用

作為發展中國家,雖然經過30多年經濟的大發展,但在目前甚至未來相當一段時間內,地區發展和城鄉發展的不平衡,仍然會是我國的基本國情。當下在北上廣深這類一線城市,經濟發展較快,科技產業發達,媒體的資源和實力雄厚,大資料技術也就能夠實現較多的新聞運用。但除此之外的廣大中西部地區,絕大部分媒體還不具備涉足“大資料”的經濟和技術條件。即便在一些省級電視臺,記者的新聞報導時常也還是一支筆、一個話筒、一個攝像機的配備。而在縣市一級的新聞機構,主要任務是配合政府的工作進行宣傳,並且報導本地的民生新聞和百姓實事。所以對於中國更廣大的新聞從業者而言,需要的還是基本新聞職業素質的培養和報導能力的提升。

在農村地區,情況又有些複雜。在一些東部地區的農村,藉助區域經濟發展實力,廣播電視基本普及,人們的媒體接觸率更高。例如根據北京大學新聞與傳播學院在讀的翟秀鳳博士研究,在山東的一些鄉村,甚至智慧手機、電腦網路已經進入到一般農民家庭,他們也能初步學會運用這些科技裝置。⑩但我們需要注意的是,這些農民通過網際網路或移動終端所首先需要獲得的,依然是傳統的文字、圖片類新聞資訊,大資料新聞的閱讀對他們來說門檻太高而且也沒有太大必要。而在相對落後的中西部農村和牧區,新聞傳播行業更加落後,別說廣播電視尚未普及,甚至在一些人煙稀少的僻遠地方,連報紙也無法每日送達。因此對於這些地方的農村和牧區而言,當務之急是藉助國家或者其他社會資源,盡力加快新聞傳播的相關基礎設施建設和傳送網路的配備,以及建立和培養專業的新聞記者隊伍。

另外值得特別提出的是,我國當下尚存的地區和城鄉發展差距,即便對於可能實現較多新聞應用的超大型或一線發達城市而言,在實際的運用方面仍然存在較多限制。如果不注意這一問題,就有可能導致新聞報導內容的某些失實。具體而言就是,這些大資料資訊是由生活和工作在這些發達城市的人群所留存的,只能反映這些城市的一些基本情況,或者發達地區的一般情況,因此也只能適用於報導這些地區或人們的新聞事實。如果媒體所報導的事務涉及國家的整體情況,僅僅依據這些資料就做出判斷,顯然會發生以偏概全的錯誤,從而產生某種資訊誤導。正是從這個意義上,我們說大資料新聞在我國的現實發展階段會受到較多限制,就有了更多的論據。

總而言之,面對當下全球興盛的大資料技術,我國的新聞媒體決不能拒之門外,這幾年的新聞實踐也顯示了大資料技術和思維在新聞行業確有相應的用武之地。但是現實存在的問題或者矛盾,也在提醒我國的新聞業者及其媒體,必須理智而冷靜地看待大資料的技術特色,務實地認識我國新聞業所處的國情和時代特點,以辯證唯物主義的思想方法,用人文精神指導新技術的運用,將新技術的運用與我國新聞發展的實際需要結合起來,以切實推動我國新聞事業的更好發展,這才是我們當前應有的態度。

(作者:呂藝,系北京大學新聞與傳播學院教授、新聞系主任;徐悅理,系北京大學新聞與傳播學院碩士研究生)