wKioJlHx4MexmRCaAABS182KKgs153

一不留神之間,我們已經匯入浩瀚的大資料洪流之中

大資料時代來了,大家的起點差不多,中國的機會也來了

推特上的情緒變化曲線,與道瓊斯股票的指數變化曲線高度相關

作為一種現象

大資料的洪流都容納了什麼?

還記得當年穀歌和百度以“大資料”為關鍵詞的搜尋曲線嗎?那兩幅圖熱烈地反映了大資料受關注的程度。谷歌從2011年到2012年,百度從2012年到2013年,都有一個明顯甚至是陡然的上升。而在中文搜尋曲線陡然上升的同時,統計工作中有關大資料的應用研究也已經同步開始了。

“大資料”作為一個詞語,或許是一個發現,而不是一個發明。但是,“大資料”作為一種現象,或是許多發明的結果、聚集和延續,是科學技術、生產力水平發展到一定程度後的必然。銀行系統有海量的儲戶個人資訊及儲存資訊,商場、超市有龐雜的商品資訊及價格資訊,機場記錄著許多乘客的出行情況,醫院記錄著許多病人的檢查和治療情況;入口網站每一條新聞下面的留言,彙整合對許多現象和問題的民意;實名註冊微博中的喜怒哀樂,則都是情感和態度的表達;百度、谷歌引擎的每一次使用,都可以說明IP那端鍵盤操作者到底想要什麼;透過大氣層中瀰漫著的無數手機簡訊,足以掌握無數手機使用者“打死也不說”的祕密。從我們不變的屬性到可變的態度,很多都已經在一不留神之間,匯入了浩瀚的大資料洪流之中。

以往歷次技術革命,中國跟在別人後面亦步亦趨。大資料時代來了,大家的起點都差不多,中國能不能在大資料應用方面與已開發國家並駕齊驅,乃至做出一些貢獻呢?

著名的《大資料》一書的作者塗子沛先生曾是中國基層政府的一名工作人員,後來去了美國,在最恰當的時候寫出了這樣一本書籍。我們請他做過一場報告,而半年之後,再請他作報告就非常困難了。據《中國青年報》報導,塗子沛去年6月時進行第四次國內巡講之旅,連早餐時間都被佔滿了。從《大資料》一書出版後,每當這位在美國供職的中國程式設計師回到國內,都會受到熱烈的追捧。6月16日,他在招商銀行深圳總部大樓與剛卸任的原行長馬蔚華共進早餐。和馬蔚華共進早餐的第二天,他在江蘇常州就“教育與大資料”的話題進行了一場聽眾超過1000人的講座。其間,他與某公司董事長吃了一頓午飯。這時,要請他講課,只能找他的祕書安排了。這個變化,恰恰是大資料現象快速發展變化的一個縮影。

演進和發展

不說不做也難,因為已經唯此為大

一年多以前,在我們剛剛開始研究大資料及其對統計資料和統計工作帶來的影響時,一位年輕同仁在我的部落格上留下一段英文:“Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it。”我不敢妄加直譯,放到線上翻譯系統上走了一下,結果顯示:“大資料就像青少年性行為:每個人都在談論它,沒有人真的知道如何去做,每個人都認為別人在做,所以每個人都聲稱他們正在做。”於是,我回復說:“很經典。但是不說不做也難,因為已經唯此為大了。”

歸納起來,對大資料現象和概念追根溯源,大致可以分為三個階段。

一是20世紀80年代至90年代中期,這是大資料認知的萌芽階段。1980年,美國著名未來學家阿爾文·托夫勒在《第三次浪潮》一書中將大資料盛讚為“第三次浪潮的華彩樂章”。1996年,美通社在介紹高效能平行節點技術時也提到中央處理器叢集以及大資料應用。這時提到的大資料,僅是字面意義,僅指資料量大,並不涉及型別、儲存方式、處理技術等。

二,20世紀90年代中期到21世紀前10年,是大資料廣受各界關注的階段。數量經濟學家迪博爾德2000年在《大資料,巨集觀經濟度量與預測動態因素模型》一文中,討論瞭如何使用大資料進行經濟度量和預測。美國高德納公司的分析師道格拉斯·蘭尼2001年首次從大資料特徵的角度對其進行了相對明確的定義,他強調大資料必須具備3V特徵,即容量大、多樣化和速度快。

三是2010年至今,是大資料戰略應用被提上日程並迅速發展的階段。2010年,美國總統科學技術顧問委員會在呈給奧巴馬總統和國會的報告《規劃數字化的未來》,將大資料列為現有科技領域面臨的挑戰之首,並要求聯邦政府的每一個機構和部門都制定一個應對大資料的戰略。這是全球首次在政府層面將大資料作為國家戰略的里程碑事件。

2011年,麥肯錫公司釋出了《大資料:創新、競爭和生產力的下一個前沿》,詳列了大資料的核心技術,分析了大資料在不同行業的應用,提出了政府和企業決策者應對大資料發展的策略。

2012年1月,在瑞士達沃斯世界經濟論壇上,大資料處理技術被視為“2012 年最應該關注的科學技術”,被譽為“改變世界的第一位科學技術”。論壇釋出的《大資料 大影響》報告中有一段著名的論述,即“大資料已經成為一種新的經濟資產類別,就像貨幣或黃金一樣”。

2012年3月29日,美國奧巴馬政府頒佈了《大資料的研究和發展計劃》,擬通過提高從大型複雜的資料集中提取知識和觀點的能力,進而加快美國科技進步的步伐,加強國家安全,並改進教學與研究。該戰略涉及美國聯邦政府的六個部門。

2012年5月,聯合國祕書長執行辦公室釋出了《大資料促發展:挑戰與機遇》的報告,分析了各國特別是發展中國家在運用大資料促進社會發展方面所面臨的歷史機遇和挑戰,系統給出了在應用過程中正確運用大資料的策略建議。

2012年6月,經合組織OECD召開統計委員會第9屆會議,釋出《使用大資料作決策》研究報告,闡述了大資料現象對決策的潛在重要性和支撐作用,並特別分析了大資料對官方統計帶來的各種挑戰。

2012年,中國計算機協會決定成立“大資料專家委員會”,推動大資料的發展。同年6月,阿里巴巴集團宣佈,將在集團層面設立首席資料官,負責全面推進“資料分享平臺”戰略。同年7月,“第二屆大資料世界論壇”在北京召開。同月,首屆中國大資料應用論壇在北京大學召開。

2013年7月,“大資料時代統計學:機遇與挑戰—中國統計學高階論壇”在上海財經大學舉辦。全國統計學專家學者齊聚一堂,共同探討在大資料時代統計學面臨的機遇與挑戰。同年,第十七次全國統計科學討論會在杭州舉行,會議的主題是“大資料背景下的統計”。這是國內第一次研究大資料與統計工作的科學研討會。11月19日,國家統計局與阿里、百度等11家企業簽署了大資料戰略合作框架協議,共同在分享、開發、利用大資料方面進行合作,以推動促進大資料實現大價值,使之更好地服務於社會。這標誌著在統計工作中應用大資料,已經從研究轉向實操層面。

兩朵細小浪花

從“喝醉的海盜”到斯諾登的“洩密”

舍恩伯格先生告訴我們這樣一個故事:史黛西·施奈德最大的夢想是成為一名教師。2006年春天,她完成了自己的學業,並對未來充滿期待。但她心儀的學校明確拒絕她,理由是她的行為與一名教師不相稱,因為她的個人網頁上有一張取名“喝醉的海盜”的照片。

照片裡的她頭戴一頂海盜帽子,舉著塑料杯輕輕啜飲著。她曾將這張照片放在 MySpace並且取名為“喝醉的海盜”。這張照片她是給朋友看的,也許只是為了搞怪而已。但她實習的大學裡,一位教師發現了這張照片,並上報給校方,校方認為網上的這張照片是不符合教師這個職業的,因為學生可能會因看到教師喝酒的照片而受到不良影響。於是,史黛西打算將這張照片從她的個人網頁上刪除。但是危害已經發生了:她的個人網頁已被搜尋引擎編錄,而且,她的照片已經被網路爬蟲程式存檔了。

斯諾登披露的稜鏡門事件更加清晰地揭示,當我們個人的行動乃至心動都融入浩瀚的大資料洪流,成為其中的一朵細小浪花後,一切已皆在掌握之中。

當人們揣著手機從一個地區到達另一個地區,馬上會接到來自運營商的歡迎簡訊。而每一部手機都是名副其實的跟蹤器和定位儀,可以精確鎖定到某一座建築物內。如果調查者和運營商聯手,不用填寫問卷,就可以既精準又及時地掌握所需要的資訊。

當人們通過部落格、微博、微信、飛信表達自己情感上的喜怒哀樂的時候,通過網上留言、跟帖表達自己對不同事物的態度和意願的時候,通過關鍵詞的輸入搜尋自己需要和感興趣的結果時,不僅留下了不可磨滅的痕跡,也為後臺的彙總與分析提供了最具基礎性的依據。當人們坐在電腦前輕點滑鼠、輕鬆完成一次又一次購物的時候,不僅切實感受到網購商品的物美價廉,還能享受到送貨上門的方便和快捷。但與此同時,每一個網購者也不得不把自己的銀行賬號及其他相關資訊,交給一雙或幾雙看不見的手去掌握、控制和操作……

儘管如此,人類社會畢竟還是要向前發展的,我們不可能再退回到沒有網路、沒有手機的年代。其實,即使倒退半個世紀,隱私安全問題也依然存在。因為我們畢竟要到銀行存款,到醫院看病,通過郵局寄信,通過單位電話或公用電話溝通。只是大資料時代的到來,使這個問題變得更加複雜和突出罷了。

在大資料時代保護個人隱私,既要靠技術,也要靠法律。技術層面,一是要防止不法分子侵入個人系統,盜取個人資訊;二是要限制個人資訊掌握者的許可權,使每個層級的相關人員只能掌握有限的資訊。更重要的是法律層面。生成、處理、分享和利用大資料,可以創造大量有價值的資訊,服務於廣大民眾,服務於經濟與社會發展。而從法律著眼,則既要為依法合理地蒐集處理大資料資訊提供保障,也要確保資訊處理過程中個人隱私不被洩露、不被用於服務和統計以外的目的。因此,法律需要針對兩方面情況作出相應的規定。

一種比較普遍的情況是,對很多自動生成的大資料資訊進行蒐集處理,可以生成很多有價值的統計資訊。如通過對網上交易情況的處理,可以得出很多價格和交易方面的資訊;對大量臨床電子病歷的處理,可以進行流行病學分析,並進行醫學研究;對工資收入資訊的彙總分析,可以為收入分配製度的調整提供有價值的依據……法律既要保障這些合法的開發利用,也要明確指出在此過程中個人和企業資訊既不得向國家統計部門以外的任何第三方提供,也不得用來對個人和企業進行處罰,更不得對社會發布。法律要細化處罰條款,一旦發生上述情況,不僅必須承擔法律責任,而且要付出一生付不起的代價。另一種比較特殊的情況則是,為了國家安全或查處犯罪行為,需要採取一些特殊手段,但這也必須在法律的框架內進行。在證據和理由充分的情況下,僅針對特定的目標,並經過必要的法律程式,等等。總之,儘快立法以適應大資料時代保護公民隱私的需要,不是未雨綢繆,而是迫在眉睫了。

應用與實踐

電影搜尋曲線與電影票房曲線高度相似

美國麻省理工學院承擔的“十億價格專案”,基於學術研究方法對全世界海量網上零售價格進行價格指數計算。每天實時收取50萬條網際網路上的商品資訊,是美國政府統計收集的5倍。由於價格資訊不是用訪問數千座實體商店的傳統方法獲得,因此成本很低。“每日網上價格指數”每天更新,研究人員和政策制定者在官方統計資料釋出之前就能夠判斷價格漲幅形勢。該指數並非用於預測官方公佈的通脹率,而是為判斷通脹趨勢提供實時資訊。2008年9月美國雷曼倒閉時,“每日網上價格指數”很快顯示出價格下降的趨勢,而官方統計的CPI直到11月才顯示出下降趨勢。

聯合國全球脈衝計劃與Crimson Hexagon分析公司合作,分析了美國和印度尼西亞1400萬Twitter使用者中與食物、燃料和住房相關的資料,以更好地理解人們關注點。分析者以“負擔”等為關鍵詞,根據人們交談主題和關鍵詞數量的變動研究人們的行為特點。結果發現,印尼Twitter使用者提到大米價格的數量變化與實際食品價格通脹指數(官方公佈的資料)密切相關。

類似的例子還有很多。如2012年,谷歌的電影搜尋曲線與電影票房曲線高度相似;巴西發生登革熱時,谷歌關於該病的搜尋曲線與該病實際發生的曲線也高度一致;社交平臺推特上人們交流時的情緒變化曲線,與道瓊斯股票的指數變化曲線高度相關,不知是情緒影響了股市,還是股市影響了情緒,或兩者互為影響。

國內最典型的例子,就是馬雲的阿里巴巴集團推出的淘寶網路零售價格指數(簡稱淘寶ISPI)。在阿里巴巴公司的淘寶網上,許許多多的店主開了許許多多的網店,經營著各種各樣的商品。於是,一個綜合性的淘寶價格指數應運而生。採用淘寶商品小類目平均價格,權重是淘寶網支付寶成交金額的比例。結果顯示,淘寶價格指數曲線與統計部門的商品零售價格指數曲線高度相似,但因為是實時的,所以淘寶曲線趨勢的出現要早於統計部門的價格指數曲線。

隨著大資料時代的到來,政府統計部門不再是唯一的海量資料的擁有者,網際網路上每時每刻都生成著大量的交易和價格資訊。你看還是不看,資料就在那裡,用還是不用,資料總是越來越多。大資料是一場大變革。應對大資料帶來的挑戰,統計工作必須變革和創新。

春江水暖鴨先知,得大資料者得天下。在大資料與日俱增的情況下,必然有越來越多的大資料轉化成統計資料,並在此過程中實現更大的社會價值。

作者:潘璠(國家統計局統計科學研究所所長)