關於大資料,我有幾點看法:第一,由於大資料剛剛熱起來,所以不必著急下結論。當年IT剛剛發展時,研究增長問題的權威羅伯特·索洛(Robert Solow)教授提出了一個“索洛悖論”:“我們到處都看得見計算機,就是在生產率統計方面卻看不見。”直到過了15年,到2002年時,他才公開承認說:“我現在發現IT可能對生產率是有貢獻的。”對大資料的研究,可能也需要一個很長的時間才能確認價值所在。
第二,可能性不等於可行性。現在有種觀點:“到底是大資料還是大忽悠?什麼都講是大資料。”其實是說現在講的或者設想的都是“可能性”而不是“可行性”。“可行性”要到什麼時間?現在還看不出來。它需要合理的制度安排,還需要企業、公司不斷地進行商業實踐、不斷試錯,以及科研工作者對大資料分析技術的不斷改進。
第三,目前的研究主要還是提問階段,而不是解決問題。當然,如果能提出好的問題,這也算是一個研究的好成果。
最後,本文儘量多擺事實、少講道理;多提供一點素材,少提供一點觀點。
一、大資料的產生、內涵及爭議
首先,大資料何來?實際上大資料一直存在,存在於不同的地方。比如每個人都包涵著很多資料:身高、體重等等,包括觀點、思想。但是過去沒有網際網路,所以這些資料很難得到應用。資料分析在很早就存在。春秋時孫臏就曾用對方營地做灶的數量來判斷對方軍隊的數量,從而指導打仗。不過,當時這樣的資料非常少,有這個利用能力的人才會成為時代的智者。
然而,現在的情況不太一樣了。網際網路應用以來,從2005年開始,資料在不斷地增長,到2010年以後基本上是一個指數增長的過程,到2013年時已經超過4個ZB,每年的增長率超過50%。這就是一個從量變到質變的過程。
之前為什麼不說大資料呢?這是個相對的概念,到某一天它的增長速度突然特別快的時候,“大”的概念就蹦出來了。所以它其實不是一個嚴格的學術概念,只是因為在量變的過程中大家感覺到這種質變,或者感覺它裡面有價值。
主要的資料來源
主要的資料來源,總的來講有兩個方面:
第一,物的資料。
其中比較有代表性的,就是由感測器組成的物聯網,這個概念是IBM在2009年提出來的一種商業模式,當時叫“智慧地球”。就是把感測器裝到不同的物體上面,然後展現它的各種資料,比如溫度、溼度、壓力等等。物聯網這幾年的增長速度比較快,能達到20%-30%的增長速度,物的資料在不斷地增加。
第二,人的資料。
其中最典型的是移動網際網路的發展。近年來移動網際網路佔整個網際網路流量的比例越來越高,移動端尤其是使用者自己傳送資料的比例大大提高了,這也是大資料非常重要的一個來源。通過這些移動端的資料,就可以判斷一個人的職業、興趣、品質或者其每時每刻的位置,就是說,靠這些資料能很精確地找到每個人的各種情況。
資料為什麼會突然大量增加?一是IT成本下降,此外,跟這兩年雲端計算使用率的上升有很大的關係。從亞馬遜(313.62, 6.56, 2.14%)彈性雲端儲存的檔案量增長情況可見,從2006年到2013年增加的量是非常顯著的,到2013年二季度時已經有2萬億數量檔案儲存在彈性雲上。
那麼,雲端計算為什麼會降低IT成本?基於我們之前一年的實踐研究資料可知,首先,從需求方來看,過去購買一些硬體包括伺服器、電腦等等,成本比較昂貴。但是雲端計算系統把IT資源集中起來後,以租用的方式來使用,就比買它的價格便宜很多。從供給的角度來看,當把所有的IT資源集中起來以後,會有非常明顯的規模經濟,因為同時運營很多臺伺服器(當然這是基於技術),其成本會顯著下降。
這裡還有一個範圍經濟的概念:當把IT資源集中起來以後,不單有規模經濟,還經營了多種的資源。比如說,搜尋可能需要佔很多CPU的計算資源,但是磁碟資源可能沒那麼多;電子郵件可能相反。當它集中運用的時候,可以同時得到這兩種效率。所以,這也是雲端計算對IT成本下降的一個貢獻。
大資料四“V”
關於大資料的定義,現在談得最多的就是所謂的四個“V”,也有五個、六個“V”之說。IDC(網際網路資料中心)歸結的四個“V”中,第一個就是它的實際規模。從早先的KB,到TB,一直到後來的PB、EB,資料的量在不斷地增加,這是一個表面的現象。
第二個“V”是多樣的資料型別,尤其是裡面包涵了大量的非結構化的資料。什麼是非結構化的資料?比如在網上發一條微信,這句話本身沒法拿來做統計或計量分析,但是可以在裡面提取結構化資料進行分析。這樣的資料反而佔資料量很重要的一部分。
第三個“V”講的是價值,有兩點:一個是價值大,大資料帶來各種可能性;另外一個比較重要的是,它雖然量很大、價值也很大,但是密度很低。在網際網路上抓取的1GB的大資料,裡面有用的可能只有千分之一、萬分之一,或者百萬分之一,所以,挖掘和分析比原來更加困難。
第四個“V”就是動態資料的快速處理。在這方面雲端計算的貢獻比較大,這裡比較核心的,也是大資料將來能不能從“可能”到“可行”轉變的兩個要素,即:非結構化和低密度。這兩者其實互相相關,如果技術上能解決怎麼分析非結構化資料、怎麼從低密度價值裡面提取資料的價值,那麼大資料的應用可能就會有一個飛躍的增長。所以,我覺得非結構化和低密度可能是大資料的核心東西。
那麼大資料是什麼呢?如果管中窺豹,從點上去看它,首先,大資料的“大”肯定是一個相對的概念,它不是一個絕對的概念。另外,它更不是一個學術性的概念,而且這裡面需要關注的就是非結構化的資料可能佔大資料的主要部分,尤其是來自於網民的互動式的資料可能是未來大資料的主體之一。
從分析方法來看,過去得到資料或者統計的方法是抽樣,然後利用概率論和隨機過程等數學的方法來推理,從而達到目的,推測得出全部資料。現在有這種可能性,如果成本降得比較低的話,就可以獲得全部的資料。
對大資料的質疑
當然,對大資料也有非常多的質疑。首先,有人提出“大資料陷阱”。資料是不是越多越好?實際上,對任何企業或個體來說,資料肯定不是越多越好,肯定有一個最優的資料量,因為要分析大量的資料,方法是不是可能?分析成本有多高?這個大量的資料包含的價值有多大?所以,對每一個企業都有一個最優的資料量,就是從拿到的資料範圍裡面獲得的價值和為了獲得這些價值而付出的分析成本,它們兩個接近相等的時候,可能就是最優資料量。
再就是,MIT的凱特·克勞福德(Kate Crawford)教授提出“大資料中存在偏見和盲區”:資料在生成或採集的過程中並不都是平等的,大資料集存在“訊號問題”,即某些民眾和社群被忽略或未得到充分體現。這個比較典型,比如說,國內現在有6億多網民,有時候不能用6億的資料去判斷13億人的狀態,因為這個過程不是靠抽樣得到的。
第三個問題就是“洩露個人隱私成為日益嚴重的擔憂”。在我們不知情時,資料就被人拿走了,這是很可怕的事。
二、大資料應用的潛在經濟影響
如果從巨集觀或者立體的角度看,人類整個經濟發展的過程其實就是不斷地把一些不可利用的資源變成可利用的資源的過程。這個過程一般就是技術的一個個大突破,當然每一次技術突破都伴隨著不斷的、大量的投資過程,並將其轉化成價值。
比如2008年的金融危機,一開始大家都關注金融的問題,後來很多經濟學家提出,這可能是過去的IT技術的經濟效應不斷耗盡,而新的技術還沒有出來所造成的現象——當技術處在一個不給力的階段的時候,金融就發生問題。實際上很多已開發國家在2008年以後也是寄希望於一套新技術來擺脫實體經濟的衰落和危機,大資料包括雲端計算、新能源都是被他們寄予厚望的幾個關鍵技術之一。
下一代通用目的技術?
1995年時,通用目的技術的概念被提出,其特徵就是它在許許多多的部門都具有廣泛而且普遍深入使用的潛力和技術活力,區別於一般的專用技術,它的影響非常廣,甚至一項通用目的技術的發展和進步往往會引發全面的生產率的收益。
到2005年時,加拿大的Lipsey教授出了一本書,總結了人類歷史發展過程中經歷的24種通用目的技術——從青銅冶煉,到鑽木取火,一直到2000年左右的網際網路資訊科技。所以,如果從增長的視角來觀察大資料的話,一個核心的問題就是:大資料會不會成為大家期待的下一代的通用目的技術?如果是的話,它可能會帶來比較顯著的經濟增長效應。
目前,大家都在期待著通用目的技術,但是真正在市場裡摸爬滾打的風險投資家們,他們顯然還沒有明確地認為哪一項技術能夠成為代替網際網路的下一代通用目的技術。
在2004年左右時,有人提出了“BT會代替IT”的觀點,講了很多生物技術的可能性,但它最終沒有轉化為能夠看得到的“可行性”——到現在為止,它也沒有真正實現對IT的替代。包括2008年以後的新能源或者雲端計算、大資料,它們都沒有真正出現一個讓投資熱高漲的階段。所以,現在我們還沒有明顯地看到下一代通用目的技術是什麼,只是有很多的設想,包括今天對大資料可能也只是一種設想、一種期望。
產業發展前景
從大資料本身的情況來看,是不是具備一些通用目的技術的特徵?麥肯錫研究院根據其模型做出一些具體的預測:大資料可以為美國的醫療服務業帶來3000億美元的潛在增加值,對歐洲的公共管理每年有2500億歐元的潛在價值,為位置服務產業帶來6000億美元的潛在年收入。同時,零售商充分利用大資料可實現運營利潤增長60%——這是一個非常可觀的數字,因為大資料現在對製造業的利潤平均可能不到5%。另外,製造業充分利用大資料可降低整個成本的50%。
上面是巨集觀地看,現在提供一個微觀的案例。德國小貸公司Kreditech不需要客戶提供信用證明,比如資產等,只是通過訪問使用者的一些電子商務資料(在中國就是淘寶、eBay的資料)、社交資料(比如Facebook)來了解你的電子商務購物行為、手機的使用情況以及位置資料等,然後用這些資料來側面分析客戶信用度。這個貸款過程非常快,用模型來判斷,只需幾秒鐘,放貸只要15分鐘。當然,它只提供小額貸款,目前這些國家的高額貸款主要還是大銀行在做,它們有傳統優勢,但是大銀行關注不到的一些地方,就由小貸公司提供服務。Kreditech提供的貸款額度最高為500歐元。從效率上來看,這已經是一個很好的嘗試了。這樣的公司現在美國、英國比較多。
在中國,比如,新的網際網路企業、新的龍頭企業BAT,當初2000年網際網路泡沫的時候,講的是搜狐、新浪、網易這樣的企業,現在阿里管它們叫“網際網路1.0”。現在BAT都是掌握了大量資料的企業。其中百度有最大的網頁搜尋資料,阿里巴巴有最大的電商資料,騰訊掌握著最大的社交資料。所以,這不是一個偶然的現象。
為什麼這樣的企業會成為引領現代網際網路產業發展的企業?很可能跟大資料的價值有內在的關係。舉一個小例子:叫車軟體深度發展就是基於位置的服務,在每個點上可以看到周圍有哪些車,甚至車的位置也可以知道。反過來也一樣,司機可以看到每個乘客的距離有多遠。這種資料如果在這個行業有很深應用的話,甚至可能會對使用者的購車行為產生影響。
在中國,工信部下屬的賽迪做過一個關於投資的預測:對大資料的投資從2012年到2015年大概每年增長100%左右,這個速度甚至超過國外的速度。
對波動的衝擊效應
巨集觀經濟學兩個基本的問題:一個是增長,一個是波動。前面講的是一個經濟增長的視角,其實從經濟波動和政府幹預的視角來看,大資料也會帶來一些衝擊效應。
這裡要提出一個問題,大資料的發展能否真正改善供需平衡?因為短期的經濟週期性的波動的危害也是比較大的,其核心就是供需不平衡。大資料對此會不會有貢獻?舉兩個例子:一個是淘寶搞的“訂單農業”。它通過網上的資料平臺去獲得需要的資訊,然後再按照訂單來組織、安排生產。另外一個例子是製造業。2013年海爾同阿里合作,叫“家電定製”,先由阿里來收集消費者對海爾產品的需求情況,然後再組織生產,生產週期大概1個-2個月。當時這個活動的效果也不錯。
當然,不能由這兩個案例就推而廣之說大資料能解決供需平衡的問題。如果收集全國所有的資料,恐怕量比較大,而且也比較困難。但是,至少從這個角度來看,我們看到這種可能性,值得思考。
再就是對政府幹預合理性的影響。為什麼政府需要干預?因為市場失靈了。為什麼市場會失靈?比如在二手車市場上,供方和需方的資訊是不對稱的,賣車的人擁有比買車的人更多的資訊。在這種情況下,如果消費者真的按照市場均衡的價格去買二手車的話,買到的只能是劣等車,好車是買不到的,這就是“劣幣驅逐良幣”的現象。從這個例子可以看出市場是有可能失靈的,所以需要政府在某些方面給予干預。但是在大資料的條件下來看這個問題的話,如果一個二手車的買家在合理的制度安排下,比如可以到保險公司去查它的資料,就知道它修了幾次,出了幾次險,到4S店去看就知道它每次出險修的是什麼地方。這樣買家就可能知道二手車的全部資訊,這樣會不會對清除這種現象有很大的改善?
講這個故事就是說,經濟學的一些傳統的分析正規化也好,一些傳統觀點也好,甚至有一些結論,很可能在大資料的條件下會發生很大變化,比如政府幹預的必要性是不是比以前更加不必要了。這都是需要研究的問題。
三、大資料對社會治理的可能影響
十八屆三中全會講到:“全面深化改革的總目標是完善和發展中國特色社會主義制度,推進國家治理體系和治理能力現代化。”“國家治理體系”和“治理能力”到底指的是什麼或者如何推進?大資料對這個問題應該是可以有貢獻的。
比如,在許多西方國家,通過選舉這套代議制度來把民意反映到政府的層次,而國內除了人民代表大會制度外,更多是領導通過調研的方式來體察民意。這實際上是一種抽樣的性質,去看一些個案,但個案容易在實踐中出現虛假現象,甚至國務院領導都曾被地方作假所矇蔽。所以,這種體制下怎麼去感知民意?現在網際網路至少匯聚了6億網民的一些資料,在一定程度上體現了大資料的“全樣本”特徵,有一個很好的技術基礎。
第二個案例是“犯罪預警”。有些地方的司法部門已經建立了一個大資料分析中心,通過分析網際網路中,比如商業方面的一些業務資料,包括來自於感測器的感測資料、一些郵件、網際網路花費單、銀行賬戶等等,將各類結構化的、非結構化的資料集中到大資料中心來,然後通過線索識別、指紋抽取等一系列手段進行分析,從而達到預警。
再比如,美國洛杉磯警察局總結認為,利用大資料的分析軟體,成功地將轄區裡的盜竊犯罪降低了33%,暴力犯罪降低了21%,財產類犯罪降低了12%。其方法很簡單,就是用模型把洛杉磯區域內即將發生犯罪的特定語句挑出來,比如人們談論的話:“出去啊”“看球啊”“喝酒啊”等等,通常會與犯罪相關的語言。這就是非結構化的資料,因為它跟犯罪沒有直接的關係,是通過經驗挑出這些語言,然後作為預防犯罪的一些敏感詞。
這也可能是對社會治理的一個應用,至於怎麼去用還需要探索。
還有城市管理方面的一個案例。SpotHero是美國一家手機應用公司,客戶開車到一個地方去時,周圍有幾個停車場,每個停車場有多少個停車位,包括每個停車位的價格是多少,通過這些資料去判斷最適合自己停車的地方。
除了人的資料以外,感測資料的應用也有廣闊空間。比如說物的資料,我聽到過一個例子,就是有個城市裡有很多休閒的地方,每個地方都有座椅,如果在座椅上安裝一個溫度感測器的話,大概就能知道每天哪個公共設定的座椅溫度最高,溫度高說明它利用率高,也可以知道哪些椅子長時間沒有人坐。就是說,完全可以通過感測器的資料來安排之後的公共基礎設施,使其達到一個最優的狀態,通過這種方式來不斷地優化一個城市的治理。
四、大資料應用的制度需求
和政府的作用
從經濟學的角度看,一個很核心的問題是如何界定資料的產權?有很多人把大資料比喻成石油,一種新的資產。但是,這種產權和財產權應該有很大區別。我覺得,產權的界定是大資料交易和商業化的前提。經濟學家科斯曾經講過產權界定的重要性,如果產權沒有進行界定的話,可能交易就沒有效率。
這裡講一個美國金融貸款公司的案例,它主要給一些小微企業貸款,貸款額度比德國的Kreditech公司要大一些。它貸款的前提是去聯邦快遞(UPS)查詢企業的快遞記錄,但UPS需要企業的授權同意;另外,即使企業同意,UPS也可以拒絕金融貸款公司的要求,後者還需要付錢給UPS。小微企業也可以直接找UPS拿到自己資料,因為它有這個權利,但金融貸款公司可能質疑資料的真實性。因此,這些企業可以尋求UPS的資料認證,然後再將其交給貸款公司。這樣,UPS可以同時向小微企業和金融貸款公司收取費用。
立法界定產權
對大資料來講,如果要利用起來,核心在於如何界定資料產權。但是,這個產權不是天經地義,應該從經濟效率或者社會學的角度出發來界定它,就像專利、像工業產權一樣。就是說,應該怎麼有效率,然後怎麼去界定產權。
我覺得,至少需要三個層次的立法:比如剛才講的資料的商業運用應該是什麼邊界?個人隱私保護應該在什麼邊界?政府資料的公開應該在什麼邊界?這樣,大家運用起來才能得心應手。一個是會有更多的可用資料,另外也能減少更多的顧慮,目前基本上還是一個比較混亂的狀態。
另外,還有一些其他的制度需求。首先,還是需要公平競爭的環境,比如對金融行業使用大資料的前景是非常好的,但現在也存在很多的市場準入門檻,使銀行僅靠存貸差就可以過好日子。計程車也是一個案例。所以,國內如果應用大資料的話,這會是一個很大的問題。
第二,資料安全或者資訊保安的問題。
關於這點甚至提得更高,說“資料主權比產權還高”,包括一些安全預警與審查機制,以及資料儲存的地域限制。歐洲搞雲端計算時就提出了一個原則:歐洲的一些關鍵資料不能夠放在美國的雲端計算中心。再比如對國家資料的外洩要立法等。
第三,行業性立法。
這方面美國已經做了一些。在中國的醫療行業,實際上在大資料出現之前,病歷在醫院已經電子化了,但是不同醫院之間仍然不能夠共享,所以這也是一個體制問題。如果能通過行業性立法,把這些能夠利用的大資料都放在一個平臺上,那情況就大不一樣了。包括教育方面,也有很多體制問題需要解決。
政府的作用
最後,簡單說一下政府的作用。
首先,國外政府在做什麼?比如2012年美國政府推出“大資料行動計劃”,已經炒得很熱。主要是在研究和應用上投了很多錢。
第二,資料開放。奧巴馬2013年簽署法令,要求所有新增政府資料都必須以電腦檔案方式向公眾開放。白宮頒佈了開放資料政策,要求政府部門列出所有可公開的資料清單。如果不可公開的話,也要作出說明。主要是列出這些資料,及時向公眾開放。
第三,政府採購。雲端計算時,聯邦政府還任命了一個技術長,專門推進聯邦政府和部門的雲端計算應用。現在資料服務可能也是這樣。第四,制定法規。這不僅是中國的問題,美國也有醫療、教育、個人隱私等方面的問題,也需要制定法規。在歐洲,有關個人隱私的法律很多,但還有很多的工作要做。
在中國,首先領導層比較關注。2013年9月,中央政治局在中關村進行開放學習,百度CEO李彥宏現場講解了大資料。部委層面也有很多。2013年11月19日,國家統計局與百度、阿里等11家公司簽訂協議,共同建設“國家統計局大資料合作平臺”。因為阿里公佈的資料基本上是所有平臺上所有小企業資料的集合,所以它對小企業的感知比統計局要強得多。這種合作也是有好處的。
在法規方面,去年9月,工信部頒佈了《電信和網際網路使用者個人資訊保護規定》。這個規定是個起步,和國外的法律體系相比還有很大差距,還需要繼續努力。
最後,就是資金支援。自2012年以來,科技部、發改委、工信部等部委在研發、探索和產業化專項上,陸續支援了一批大資料專案。對這種新的技術,雲端計算也好,大資料也好,地方政府往往還是走在中央政府之前。現在基本上是“多點開花”的狀態,陝西有“大資料科學園區”,廣東有“大資料戰略工作方案”,上海有“大資料研發三年行動計劃”,山東有“產業聯盟”,遼寧也在搞。在中關村,還有“大資料產業聯盟”。
五、關於大資料的建議
第一,不必急於出臺所謂的戰略性規劃和設立產業專項資金。
因為國內的IT企業也好,地方政府也好,已經意識到大資料產業的發展前景,現在熱情非常大。在這種情況下,以國家規劃和專項資金等方式進行鼓勵,有可能扭曲正常的市場行為,甚至催生泡沫。
在雲端計算髮展的過程中,這已經非常明顯。很多地方搞雲端計算搞成了雲地產。在這種情況下,我覺得雲端計算產業可能已經有了過剩的苗頭,不希望大資料也出現同樣的問題。
第二,怎麼合理改造、建設和佈局好IT基礎設施?
對大資料來講,有兩個方面:一個是網際網路頻寬,這沒問題;另外一個,其實雲端計算本身就是大資料的一個基礎設施,本身就是處理動態的海量資料的。如果沒有這樣一個系統,資料是不可能大規模儲存的,也不可能大規模快速計算。很多傳統資料中心及舊伺服器資源,可以通過建立虛擬資料中心或進行就近合併等方式進行改造利用。
另外,一些新建的大規模的資料中心,如何通過統籌,合理佈局,能夠真正地讓雲端計算實現降低IT成本的效果,而不是相反。除雲端計算以外,主要就是加快“寬頻普及提速工程”的推進速度。這個日本和韓國做得比較好。
第三,如何推動隱私保護和公共機構資訊公開等立法。2012年全國人大常委會通過了《關於加強網路資訊保護的決定》,工信部也有保護個人資訊的新規。但是還有很多的工作要做,如何繼續完善個人隱私保護立法還是有很大的問題。
再者,對網際網路資料商業化應用範圍如何界定?資料濫用應承擔哪些責任?目前都還沒有有法可依的東西。然後就是政府資訊公開的程度。最後就是哪些資料可以向境外流動或允許境外企業開發利用,也需要有一些相應的法律規定。
最後,資助大資料基礎技術研究,包括人才培養。現在搞大資料分析或者大資料應用,人才很缺乏,這種情況不光是國記憶體在。
作者為國務院發展研究中心技術經濟研究部第二研究室主任,本文為作者在洪範法律與經濟研究所舉辦的學術研討會上的發言
via: 《財經》雜誌