塗子沛:資料外部性這把“大資料之劍”
(本文轉自“新炬網路公眾號”)
2007年,微軟工程師阿爾卡斯(BlaiseAgueray Arcas)有過一個創舉,他利用Flickr網站上的照片重建了一座虛擬的巴黎聖母院大教堂,透過點選,人們在網上可以從不同角度感受這座教堂,甚至可以放大、細賞其建築外牆上的一個具體部位,而這些照片卻是成千上萬普通人拍攝的,阿爾卡斯在演講中說,這是“從每個人那裡得到資料——從人類對地球的集體視覺記憶中得到資料——然後把它們聯結在一起”。
阿爾卡斯的創舉並不是孤例。2014年10月8日,世界多地出現月全食,全球無數臺手機對準天空的月亮,隨著咔咔聲響,成千上萬張照片奔湧到雲上。這些照片從不同地點、不同角度記錄了同一個物體,天文研究者已經認識到,如果整合起來,其對研究工作的意義可能比一臺超級天文望遠鏡還要重大。
這兩個例子中的照片可謂異曲同工。人們之所以拍照,是為了娛樂、分享。但這些照片被整合起來之後,我們很容易發現,它們產生了新的效用。這些效用,遠遠超出了拍照人最初的目的。這種現象,我稱之為“資料的外部性”。
“外部性”並不是一個新概念,經濟學家在這個領域的研究已有上百年的歷史。他們發現,一個普通個體為了自身利益而做出的“利己行為”,也可能讓其他人或者整個社會受益,並且受益者無須為此支付費用。
借用這個概念想指出的是,資料的作用完全可能超出其最初收集者的想象、也完全可能超越其最初資訊系統設計的目的,即同一組資料可以在不同維度上產生不同的價值和效用。如果我們能不斷發現、開拓新的使用維度,資料的能量和價值就將層層放大。
研究資料的外部性對我們正在邁進的新經濟、資料經濟具有非常重要的意義。
阿里巴巴之所以能夠不斷成長、擴張,其中一個重要原因就是用好了“資料外部性”。由於擁有淘寶、天貓、支付寶、B2B等電商平臺,阿里巴巴積聚了大量的商家交易和支付資料。阿里巴巴收集這些資料,一開始僅僅是為了完成網上交易的流水記錄。
2010年開始,阿里巴巴逐漸意識到了這筆記錄的潛在價值,現任阿里雲總裁胡曉明率隊開始研究如何利用這些資料,判斷商家的資信,從而為其發放貸款。這就是“阿里小貸”的發源。
阿里小貸是中國網際網路金融領域開拓性的標本專案,也是日後阿里巴巴擴張、拆分出一個新的集團——螞蟻金服的重要基礎。在這個成功的基礎上,今天的阿里巴巴進而提出“一切資料都要業務化”,就是要把所有已經擁有的資料都用起來,挖掘其外部性,讓他們產生新的商業價值。這當然是一個大資料公司應該具備的商業使命。
類似的例子國外也有。Kabbage是一家成立於2008年的網路貸款公司,其運作機理和阿里小貸類似。為了評估貸款人的信用,Kabbage不僅高效地整合了eBay、Amazon等電子交易平臺上的資料,還分析這些企業在物流公司如UPS的配送資料、在PayPal、Square、QuickBook等財務系統的賬面流水,以及在社交平臺Facebook 、Twitter上與客戶互動的資料。就挖掘資料的外部性而言,Kabbage比阿里小貸做得更廣、更好,其中的原因,是因為美國社會對資料的所有權、使用權、收入權和轉讓權有更為清晰的界定,資料共享、交易的機制更為成熟。
如果把這兩家公司和傳統銀行相比,我們就更能發現資料外部性之於大資料的關鍵意義。
傳統銀行要給一家企業貸款,必須針對這項貸款申請去訪談調查、收集資料,而被調查的企業在提出貸款申請之前,已經有所準備,他們可能採取相應的措施迎合、糊弄銀行的調查。也就是說,這個過程是“先有目的、後有資料”,可能因為既定目的,資料在收集的過程中遭遇扭曲;而阿里小貸所利用的流水資料,其最初收集的目的是記錄交易過程,完全和貸款申請無關,其資料遭到扭曲的可能性幾乎為零。
?
也就是說,資料外部性是“先有資料,再應用於不同的場景和目的”,資料的可信度因此更高。
除了推動經濟發展,資料外部性還可以應用到社會管理領域。2014年8月24日,舊金山地區發生了6.0級地震,次日,可穿戴式裝置運營商Jawbone釋出了其資料分析。
資料表明,在距離震中較近的地區,有93%的手環使用者在地震發生之時3:20分被驚醒,其中45%在地震之後就沒有再睡著,驚醒使用者的比例隨著距離震源的遠近而呈現清晰的規律。可穿戴式裝置收集資料的原始目的是為了監測、改善個體的健康情況,但這些資料加總到一起,新的效用產生了,社會學家可以用它們掌握一個地區的人是否集體在失眠、焦慮,甚至一個晚上總共翻了多少次身,從而可以更好地解釋人際互動乃至社會分層機制,交通部門可以解釋為什麼第二天交通事故增多,保險公司可以利用這些資料制定更加個性化的保單價格……這些前所未有的可能性,都是資料外部性帶來的。
隨著感測器和智慧手機的普及,資料還在大規模地爆炸,人體的生理活動、自然環境的狀態、工廠的機器執行、城市的生活將被廣泛的記錄,未來的每一組資料,都具備各種外部性的潛在價值。挖掘利用這種外部性,將給全世界的科學研究、經濟發展和社會治理帶來巨大的機遇。當然,要注意的是,資料外部性也有正、負之分,負的外部性可能會危及國家安全、侵犯公民隱私。這又說明,要用好資料的外部性,我們還亟須建章立制。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29960155/viewspace-1455203/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 看華為與騰訊資料之稱, 重讀徐子沛《大資料》大資料
- 塗子沛:資料正在引領高清晰社會,重塑文明
- 如何有效利用資料庫中間表這把雙刃劍資料庫
- 一塊肉,一把劍!深析360大資料安全治理之道大資料
- [譯]大資料之“資料黑市”大資料
- 大資料圖資料庫之TAO資料庫大資料資料庫
- 大資料:大資料之基礎語法大資料
- 塗顏色(數論,大資料輸入處理)大資料
- 大資料,大資料,大資料大資料
- 大資料時代:守好資料安全這道門大資料
- 大資料之偽大資料
- 企業大資料-之機器資料大資料
- 大資料之傷--小資料思維大資料
- 大資料分析之資料下鑽上卷大資料
- 外部資料在資料分析中的應用
- SparkSQL外部資料來源SparkSQL
- 大資料技術之資料採集篇大資料
- 教育大資料之資料資產管理系統大資料
- 教育大資料之資料開發系統大資料
- 大資料要學什麼?看看這份大資料課程大綱大資料
- 周鴻禕:大資料把人變透明大資料
- 大資料之概率論大資料
- 大資料之Flume(二)大資料
- 大資料教程分享實用的大資料之陣列大資料陣列
- 大資料常見問題之資料傾斜大資料
- 【工業大資料】工廠大資料之資料來源分析;如何挖掘並駕馭大資料的價值,成為“大資料企業”?大資料
- 外部表載入資料(ExternalTables)
- 大資料測試之揭秘大資料的背景與發展大資料
- 大資料學習之Hadoop如何高效處理大資料大資料Hadoop
- 想學習大資料?這才是完整的大資料學習體系大資料
- 學習大資料,一定要了解大資料的這些用途大資料
- 資料洩露、資料孤島、資料虛假:大資料如何翻越這三座大山。大資料
- 大資料測試之ETL大資料
- 大資料架構之:Spark大資料架構Spark
- 大資料資料收集大資料
- 大資料計算生態之資料計算(二)大資料
- 大資料計算生態之資料計算(一)大資料
- 大資料應用——資料探勘之推薦系統大資料