0a9892c054479b80d7d31050ae833827
  我準備與大家討論三個問題:第一,什麼是大資料。關於大資料大家說的很多,但是其中錯誤概念也非常多,我想從我的角度來給澄清一下大資料是什麼。第二,大資料和社會學研究到底有沒有關係。相信這也是大家比較關心的議題。第三個,大資料對社會學研究帶來了什麼挑戰。大資料給當今社會帶來的挑戰非常多,但對社會學研究而言,到底有什麼樣的挑戰呢?我自己有三點看法與各位分享。
1
什麼是大資料?

大資料是痕跡資料彙集的並行化、線上化、生活化、社會化。

對社會學研究,我們最熟悉的是社會活動,我稱其為人類活動。其實今天,不僅僅社會活動,你的私密活動也在資料之中,我沒有加“社會”兩個字,道理就在於人類的活動都在慢慢地資料化。在人類活動中,有一個概念叫做造痕,考古挖掘的,就是人類社會生活留下的痕跡。過去,我們通常拿這些痕跡做證據,比如考古學、歷史學和社會學的許多研究活動。這些證據有一些會被資料化,資料化了的證據就叫做資料。

df3b51a2a1c99c4605bb902c1f23cada

既然很早以前就有“資料”,今天怎麼就出來一個大資料呢?一個非常重要的因素,就是網路化彙集和網路化儲存,把過去的資料集中起來,這才構成了大家討論的大資料。

那麼,什麼叫大資料?麥肯錫從行業和業務價值鏈的角度給了一個定義:資料,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量資料的挖掘與運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。麥肯錫認為,大資料將是一個生產力的來源。今天,我們在講“網際網路+”,背後有一個非常重要的概念,叫資料驅動。過去,我們的研究活動叫理論驅動,今天,資料驅動已經變成了人類社會研究中非常重要的概念。

“大資料”概念最早從哪裡來呢?沒有確切的證據,但是IBM很早就開始談大資料了。IBM給大資料的定義是“4個V”:數量(Volume)、形態(Variety)、價值(Value)、速度(Velocity)。這是從資料本身做的定義。

d95fa663b0cda75315512be18b164ec0

沿著IBM提出的“4個V”,先做一個簡單的說明和解釋。首先,從數量來看,大資料的資料量已經超出了任何個人在可接受時間範圍內蒐集、利用、管理和處理資料的能力了。2012年,對資料的計量已經從MB級躍升到TB級了。現在講大資料,基本都是在PB級及以上。這個量級,超出任何單部計算機乃至大型機的處理能力。

其次,從資料形態來看,傳統的資料,通常是結構化資料,大資料則是混合形態的資料。在大資料中,有一部分是結構化的資料,如SQL(結構化查詢語言)資料,更多的則是非結構化的資料,如日誌、音訊、視訊、圖片和地理位置等資料,大都是非結構化的。

第三,從商業領域來看,大資料的價值密度比較低。傳統的資料,通常是目標導向資料,有非常明確的價值,比如說CFPS(中國家庭動態跟蹤調查)。大資料則是記錄導向的,是為了記錄資料而不是為了得到某個特定事件的資料,不是為了解釋某個事件而記錄資料。這是資料獲取方式上非常重要的變化。

大資料第四個重要特徵是速度。傳統的資料,從測量到可用,需要相當長的時間,赫爾曼•霍爾瑞斯在統計1890年人口普查資料時,發明了讀卡機,用1年的時間完成了原本耗時8年的人口普查活動;CFPS從調查結束到資料可用,也需要1-2年的時間。大資料 ,幾乎隨時可用,每時每刻都在記錄資料,每時每刻這些資料也可用;不過,可用,也有一定的約束性。對研究而言,不是針對一個具體研究問題可用,而是說,如果你想研究某個尚未模型化的問題,可以隨時截一段資料來,進行資料清理的可用。

從社會研究的視角,我自己給大資料一個定義——大資料是痕跡資料彙集的並行化、線上化、生活化、社會化。

資料彙集的並行化是一個電腦科學概念。並行,指可以同時執行很多個執行緒。線上化,就是資料本身線上上,不在你的桌面計算機或行動硬碟中。社會化,指每個人都有可能是資料的提供者。在過去,大多數都是由機構或者個人找“樣本”提供資料;但是今天,每個人,只要接觸感測器,甚至走在大街上,都是資料的提供者,同時,也是資料的使用者。生活化,則指資料的無處不在,無論是工作中還是生活中,資料始終伴隨著人們。

簡單地說,大資料,就是形態數字化、非結構化、線上流動著的資料,容量至少在PB級或以上,與社會行為相伴生、通過裝置和網路彙集的資料。大資料是完整的,卻不一定是系統的,它無時無刻都在記錄著人類的行為。

因此,對社會學研究而言,大資料是一種新的研究資料來源,一種永不停息的、流動的研究資源,不一定是對其他來源資料的全面替代。

2
大資料和社會學研究有關係嗎?

大資料和社會學研究關係密切,對其應用,目前,看起來似乎沒那麼緊迫,且主要對實證社會學產生較大的影響,逐漸地就會影響到社會學,甚至整個社會科學。

在社會學想象力的前提下,我把社會學的研究分為三大類。

第一類——思辨的社會學,社會學的鼻祖們,基本上都採用了思辨的方法在研究社會學。後來的,比如說帕森斯、福柯、吉登斯等也是。思辯的社會學,主要採用“概念”工具,而不講求對概念工具的測量,這些社會學家們,基本不用資料。

第二類——詮釋的社會學,從胡塞爾以降到舒茨式的現象學社會學等。這些學者,主要是圍繞“意義”進行研究。對他們來說,現象的代表性或許是沒有意義的,現象本身卻具有意義。他們的任務,就是闡釋現象的意義。這一類社會學研究,或許也不用資料。

第三類——實證的社會學,主要源於年鑑學派,也是社會學研究中作品量比較大的一類。如果把這一類社會學與前兩類社會學做一個簡單的區分,就在於是否使用假設檢驗和經驗檢驗。

目前,資料與社會學研究關係最密切的,是第三類——實證的社會學,實證社會學研究離不開資料。

實證社會學有一個發展的過程。1998年,Platt對美國社會學研究做了一個長時段的回顧,發現:1915年-1924年,35%的社會學研究文章中用的是個案,53%用的是統計;到1964年使用統計方法的研究上升到了76%,尤其是ASR(American Sociological Review)和AJS(American Journal of Sociolog)兩個主流的刊物。在今天,除非做純粹的社會理論研究,只要涉及到社會事實的文章,似乎都需要用資料進行檢驗。在中國也一樣,王文韜在2000年的研究,也證明了中國社會學研究實證化的趨勢在迅速加強。

過去,實證社會學研究的資料主要來自於調查活動。二戰以後,從密西根大學建立ISR(Institute for Social Research)開始,資料科學開始慢慢興起。在大資料到來之前,主要有三個資料來源,分別代表了三種資源來源和三個群體的權力。第一,行政資料,各國政府、各級政府,掌握的各種ID、身份、流動、登記、就業、生產、消費等資訊;第二,商業資料,比如說過去近三百年的金融資料、生產交易資料、勞動工資資料等,都在商業機構手裡。直到1930s開始,社會科學家逐步認識到資料的重要性,開始尋找資料。二戰以後,ISR逐步發展了一整套依靠學術力量獲取資料的方法,並建立了覆蓋人類社會、經濟、教育、健康生活的各類調查資料。在一定意義上,調查資料,成為學者手中一項資源,也是學者在社會中發出聲音的一種依據。

由此看來,從社會學研究發展的視角來看,大資料和社會學有密切關係,只是,目前看起來衝擊似乎並不大,也主要是針對實證社會學的衝擊。在將來可能就不是這樣了,對大資料的應用不僅對社會學而言會變得十分緊迫,甚至對所有社會科學而言都將如此。

3
大資料給社會學帶來了什麼挑戰?

今天,社會研究依然需要通過調查獲取資料。或許大資料研究的正規化重在發現,而不是重在推論。社會研究的基本目標還是要把握事物之間的關係模式,不過,在大資料中,這種把握的技術變了,需要運用資料探勘技術。不僅如此,大資料給帶來的更大挑戰,在於對整個教育體制的挑戰。

在大資料應用日益廣泛的現代社會中,進行社會研究依然需要調查資料。的確,對於大資料而言,無需調查,只需選擇。調查資料,是有目的、有假設地去搜集資料。對於大資料而言,沒有任何人可以做某個單一的研究假設,也沒有任何人有能力做普適的研究假設。正是在這個意義上,對大資料的分析,重在發現。而且目前主要是機構性的應用,尤其是商業機構,比如阿里巴巴對大資料的應用,在世界範圍內名列前茅。

如今的學術研究,還沒有運用到PB級資料。社會學的研究,運用的基本上是大資料中的資料,訪員不再向調查物件去搜集資料,而是向資料(機器)蒐集資料。

2013年,哈佛大學的G. King教授做了一項研究,從社交媒體獲得資料來看中國沉默的表達,他從1382個社交媒體網上,運用網路爬蟲獲取資料,是大資料中的資料。

2012年我做的“誰在開網店?”用的是淘寶600萬個店家資料中的1%店家資料,也是大資料中的資料。

那麼,大資料來自於哪裡呢?

大資料的第一個來源,是感測器。人類社會的對感測器的運用,2005年只有1.3億個,到2010年就發展到了30億個,今天,大概有45億個。什麼叫感測器呢?廣義地碩,任何可以監測、資料化、傳輸的工具,都是感測器,手機、手環、大街上的探頭等,都是感測器。

大資料的第二個來源,是網際網路。谷歌每天要處理大約24PB的資料,百度每天大概新增10TB的資料。

大資料的第三個來源,是社交網路。像Facebook每天要處理23TB的資料,Twitter每天處理7TB ,騰訊每日新增加200-300TB的資料,中國電信大概每天也有10TB的話單,30個TB的上網日製和100TB的信令資料。

還有,如金融、零售、科研以及政府等部門的資料。譬如,每個交易週期,紐約證券交易所要捕獲1TB的交易資訊。淘寶每日訂單超過1000萬,阿里巴巴已經積累的資料量超過100個PB。

大資料給社會學研究帶來的挑戰到底在哪裡呢?

大資料帶來的第一個挑戰就是還要不要調查資料。事實上,對調查資料的挑戰,取決於對調查資料的替代程度和擴大程度。相對於大資料而言,調查資料,就是小資料。大資料與小資料有一個交集,兩種資料交集重疊的部分會怎麼樣增長,取決於兩個因素,一個是感測器技術的發展,一是資料探勘的演算法技術的發展,這兩項技術未來的發展,直接影響到社會科學未來發展的走向。

2b5d6431fccbedba3dab61b18cfcf69c

對於調查資料來說,比如說人口普查,健康調查之類的,這些調查到底幹什麼呢?對個體研究而言,他研究人的行為、健康、教育、成就、幸福;對於群體而言,研究群體的行動,結構和動態;對於社會而言,研究社會的狀態和動態,這些研究未來有沒有可能用大資料來替代?完全有可能,如果資料整合能夠實現,替代的速度可能還很快!

比如,微信社交網,就是人的人情網路或人際網路;淘寶就是生活網;還有交通網,工作網,健康網。大家手腕上戴的智慧手環、手機、電腦、家用電器等,這些裝置如果互聯互通,也會形成巨量的資料。用《資訊簡史》一書中的一句話來概括:萬物皆位元。

資料就在那兒,問題是怎麼用。未來,社會學研究對資料的利用,取決於資料化覆蓋的範圍。第一個覆蓋的是教育,線上教育;第二個是健康,未來的健康將是完全資料化的健康;第三個是物聯網,所有的器物之間連通、資料化;還有硬體、工程、製造、農業、金融等等領域,都將被資料化。既然各行各業都被資料化了,那麼,大資料給社會學研究帶來的第一個挑戰就是:“社會研究還需要調查嗎?”

對這個問題,我認為有兩個點值得探討——轉換和替代。第一個是轉換資料,第二個轉換思維。資料的來源已經完全變了,需要調查的東西越來越少。替代,未來也有可能完全不需要做大規模調查,調查的重要性會越來越低,這是一個大趨勢。

第二個挑戰,社會學研究正規化還有用嗎?在《大資料時代》中,作者提到過去的研究正規化是抽樣、精確、因果。作者說,這三個過去我們為之努力奮鬥的正規化可能面臨著革命性的轉變。事實是否如此,現在依然有爭論,至少這是一個值得認真思考的訊號。

我自己有一個看法,運用調查資料做研究,是假設檢驗進行推論;運用大資料做研究,顯然是通過資料進行總體歸納;方法上的確是一個本質的轉換。我們知道自然科學用重複檢驗,社會科學沒有重複檢驗的條件,只能做假設檢驗。如果資料歸納在迭代中能夠滿足重複檢驗的條件,是不是就會真正地“科學化”呢?目前,至少有一點是可以肯定的,那就是大資料研究的正規化重在發現,而不是重在推論,社會研究的基本目的沒有變,還是要把握事物之間的關係模式。

作者:

邱澤奇:資訊社會50人論壇成員,北京大學社會學系教授,北京大學中國社會與發展研究中心主任