對“大資料”概念還搞不清的人可以鬆一口氣了,如果你讀過《大資料時代》(Big Data:A Revolution That Will Transform How We Live, Work, and Think),你會發現舍恩伯格(Viktor Mayer-Sch nberger)對“大資料”的定義如此簡單:所謂大資料(Big Data),就是大量的資料;它的反義詞同樣簡單:小資料(Small Data),很少很少的資料。
相比於作者所著同樣談論大資料話題的《刪除:大資料取捨之道》一書,《大資料時代》結構緊密,邏輯清晰,論證過程也更為嚴謹。本書在何為大資料、大資料有何典型特徵、大資料的實際應用和未來以及大資料的隱憂等關鍵問題上,通過案例和通暢曉白的解釋,梳理清楚了“大資料”這個看起來高深複雜但其實無處不在的概念。在舍恩伯格看來,以往我們因受限於工具而採用的抽樣調查以及精準取樣資料的分析方法需要革新,大資料時代是改變方法論和思維方式的過程。
大資料時代的到來,與資訊數字化息息相關。在2000年的時候,以數字化形式儲存的資料僅佔全球資料量的四分之一,而到了2007年時,90%以上資料是數字化資料,剩下不到10%是儲存在報紙、CD等介質上的模擬資料。我們知道,模擬資料在複製和傳播過程中資訊會失真、噪音疊加,比如一張紙連續影印三次之後,噪點越來越多,字跡越來越模糊,一盤音樂磁帶連續翻錄多次之後,令人厭煩的“嗞嗞”聲越來越大。而二進位制數字世界,是一個非黑即白的世界,要麼1要麼0,即使有噪點,灰色也會被識別黑色(1),淺白則被計算機處理為白(0),沒有中間地帶,也就沒有了噪音的容身之處。資訊在數字世界得以無損複製和傳播,再加上不斷廉價化的儲存能力以及同時提高的計算能力,大量以前無法處理的資料,有了分析、解讀它們的可能。
在模擬資訊的世界,因為資訊收集、資訊複製、資訊儲存以及資訊分析的工具既不夠好,成本也極為高昂,我們只能收集極少量的資料(也即所謂的“結構化資料”)進行分析,由於條件所限,我們發明了統計學來通過儘可能少的資料,去推導、去證實儘可能重大的發現。當我們意識到我們已經擁有能夠收集和處理大規模資料(也即所謂更多的“非結構化資料”)能力的時候,我們需要新的理念和工具去重新認識這個世界了。
新的理念運用於工具上的體現之一是光場相機Lytro。與其它數位相機不同的是,Lytro相機可以在拍攝完照片之後再對焦。因為在拍攝時,Lytro可以記錄整個光場裡所有的光,照片具體生成什麼樣,拍完之後根據需要再決定。——有沒有發現這顛覆了我們做事的一貫邏輯?以往我們因為受制於工具或金錢,需要提前想好我們的目的,再去獲取我們需要的資訊。而大資料時代的思維方式則如Lytro的特性一樣,先拍下來再說,需要什麼樣的照片,後期再處理。Lytro相機也算從膠片機過渡到數位相機交疊時代思維的延續,如果攝影技術不太好,先拍一堆片子再說,你總能挑出幾張好的來。
對小資料而言,最重要的要求是減少錯誤,保證質量。而大資料對更糙的資訊及冗餘資訊容忍度更高,也即當資源足夠豐富且廉價的時候,可以先大量浪費,再來精準化,而不是預設精準的目標。
亞馬遜早期僱傭了一群書評家為讀者薦書,後來發現通過演算法——一群對圖書質量判斷能力遠不如專業人士的普通讀者的口味的集合——推薦圖書的轉化率更高之後,亞馬遜把書評家們都解僱了。由於自己多年積累被演算法取代的憤怒,在被解僱之後,書評家發出這樣的抱怨:(通過演算法推薦)“那種感覺就像你和一群腦殘在一起逛書店。”類似的故事也發生微軟。微軟機器翻譯部門的統計學家們在茶餘飯後閒聊中會說,每次一有語言學家離開他們團隊,微軟機器翻譯質量就會變得更好一點。
從對資訊質量的角度出發去觀察,我們會發現大資料時代的特性的確越來越“腦殘化”:它放棄原始資料的精確性,強調資料量的多和雜;它放棄因果關係的判斷,強調相關關係;它放棄知其所以然(為什麼),只需知其然(是什麼)就可以了。
豆瓣閱讀為什麼給你推薦《中國合夥人》?背後的邏輯可能是你的朋友最近點了“想看”或“看過”。新浪微博為什麼推薦李承鵬而不是李開復給你關注?背後的邏輯可能是你關注的人中更多人關注李承鵬。但為什麼因為朋友喜歡,所以機器就會判定你也會喜歡呢?不知道。機器通過計算得知,如果你有很多朋友喜歡同一個事物,那麼你喜歡這個事物的概率會大一些。可能對,也可能錯。二者之間強相關,但不因果。
大資料最大的用途之一是預測。好的方面,它可以預測機票價格走勢,為自費旅遊者省錢;它能預測交通擁堵情況,幫助人們選擇更好的時段和路線節省出行時間;它也可以像亞馬遜做的那樣,為你提供更準確的書單,幫你遇見更多好書。《麻省理工科技創業》曾報導說,英國伯明翰大學的一個研究團隊甚至開發出一種演算法,可以精確地預測你未來將要去哪裡。
大多數人一般有規律的行為模式,但傳統的預測演算法——只通過使用者本身的行為模式來進行預測,解決不了人們臨時變更路線的情況,導致預測人們出行的平均誤差高達1000米。伯明翰大學開發的演算法可以通過追蹤使用者手機上的個人過往行為模式資料以及使用者手機裡的社交關係——當然,新型演算法需要收集和分析大量個人資訊。最後能預測使用者在24小時之內會去什麼地點,而平均誤差減少到僅20米。
如此精準的研究結果讓人驚喜——細想過後,可能給人帶來更多的是驚訝,或驚恐。沒有人希望自己的正常出行被別人預測——機器竟然比我自己還了解自己,我連三小時後我會幹嘛都不知道呢!這提醒我們在大資料時代,我們將面臨的隱私問題的嚴峻。
在小資料時代,資料採集者需要告知資料提供者其採集的資料用途為何;但在大資料時代,這樣的資訊管理方式已經失效。舍恩伯格在書中指出,“大資料”將顛覆隱私保護法當下以個人為中心的思想。
比如許多公司採集使用者資料時的目的與最後使用的目的往往不同,而且在未來,大資料的價值不再單純來自它的基本用途,更多來於它的二次甚至多次利用。但有時候即使個人不同意,也會為公眾帶來隱私問題。
以Google街景專案為例,Google採集了街道上的幾乎全部資訊,如果有某個人不同意ta的資料顯示在Google街景中,Google會將該資訊模糊化處理。但當其他人的資訊都完整呈現在街景圖中時,“馬賽克”(模糊化處理)的部分反倒成了焦點——本想隱藏掉的資訊反倒成了此地無銀三百兩式的焦點。未來的個人資料採集與資料授權,需要替換掉目前的隱私保護方案。
舍恩伯格在書中舉的更諷刺的案例則是,2007年,英國報紙London Evening Standard一篇報導稱,喬治·奧威爾曾居住過的倫敦公寓外方圓183米範圍內,有32架攝像機。如果奧威爾生活到現在,看到此情此景,他會做何感想?