購買地址:
斯塔西•施耐德(Stacy Snyder)曾經的夢想是成為一名教師。2006年夏天,她完成了獲取教師資格證書所需的課程並通過了所有考試;然而她的夢想卻在即將實現之時突然破滅——她所在學校的一位負責人告訴她,她無法取得教師資格證書。
學校負責人展示了一張她上傳到自己的MySpace頁面上的照片,照片上的她戴著一頂海盜帽,正端著一隻塑料杯飲酒。這張照片是她向自己朋友展示的,甚至可能只是搞怪,但學校認為這樣的行為與教師的標準不符。斯塔西向學校承諾將這張圖片從網上刪除,然而為時已晚——照片早已被搜尋引擎索引,並被網路爬蟲所記錄。她希望她的照片被遺忘,然而網際網路並不允許。
這是牛津大學網際網路學院的教授維克托•邁爾-舍恩伯格(Viktor Mayer-Schönberger)在2009年出版的《刪除:數字時代遺忘的價值》(中譯版為《刪除:大資料時代的取捨之道》,以下簡稱《刪除》)一書中引用的一個案例。他告訴讀者,遺忘本是人類的天性,但隨著資訊科技的發展,記憶變得越來越容易,遺忘卻越來越困難;無法遺忘不僅會給個人帶來不必要的困擾,也給企業製造了麻煩——他們儲存的資料日益增加,但其中很多隨著時間的推移而失去了價值。因此,他呼籲引入一種遺忘的機制,例如為資料設定一個儲存期限,“讓我們記得去遺忘”。
儘管沒能提出切實可行的“遺忘”方法,但《刪除》獨特的視角仍受到了學術界和網際網路業界的廣泛關注;這本書不僅獲得了多項圖書獎,還被翻譯為德語、義大利 語、韓語等不同語言。
當“大資料”成為業界新的熱點之時,在這一領域有著深入研究的維克托於近日出版了其新作《大資料時代:生活、工作與思維的大變革》(以下簡稱《大資料時代》),通過一個個生動的案例向讀者介紹大資料的價值及其將會帶來的改變。
12月11日,維克托攜兩本書的中譯本來到北京,在不同場合與讀者及業內人士交流大資料相關的話題。我在亦莊雲基地與維克托進行了深入對話,和他探討大資料時代的記憶與遺忘。
從防毒軟體開發者到跨界學者
維克托出生於奧地利薩爾斯堡,父親是一名律師,母親是一名商人。他經常會在演講中引用他家人的例子。“我母親曾經營一家電影院,我每年都會問她過去一年最好的電影是什麼,她總是說‘我知道,我知道,就是XXX’,但她總是錯的。”他試圖用這個例子說明大多數人對於資料並非特別擅長,因而需要資料分析工具和模型。
維克托從小便對軟體興趣濃厚。他12歲時便開始接觸程式設計,少年時期曾在國際物理奧林匹克競賽和奧地利青年程式設計師競賽中獲獎。1986年,18歲的他創辦了著名的防毒軟體公司IKARUS。不過正當他希望在軟體領域一展身手之時,父親卻要求他攻讀法律。
“我說我想成為一個軟體人,不想學法律,但他卻堅持他的意見,於是我進入法學院學習,同時經營著軟體公司。”
IKARUS發展迅速,1991年,維克托被評為奧地利最傑出的5名軟體企業家之一;不過很快,他便無法兼顧繁重的學業和日益壯大的IKARUS,最終他選擇賣掉公司,專注於學術道路。從薩爾斯堡大學畢業後,維克托又在哈佛大學、劍橋大學和倫敦政治經濟學院等世界名校攻讀了多個學位,並在畢業後先後進入哈佛大學、新加坡國立大學和牛津大學任教。2000年,他還因為在學界和業界的突出貢獻被評為薩爾斯堡州年度人物。
談到跨界的經歷,維克托表示自己很幸運。“很多政客和律師不懂商業,而商人不懂法律、政治,我則有幸能兼顧兩邊——我進入了軟體業,成為一個創業者;同時又懂法律,瞭解決策者們的想法。”
掌握不同領域的知識不僅為維克托在網際網路治理等交叉學科方面的研究提供了很大的幫助,也讓他獲得了許多IT企業和政府部門的青睞——他曾先後為微軟、IBM、惠普等公司提供諮詢服務,也擔任過新加坡商務部、科威特商務部和汶萊國防部的智囊。
三大轉變定義大資料
大資料是今年IT界最熱門的概念之一,然而對於“大資料是什麼”,連許多經常談論這一概念的從業者也無法給出準確的答案。正因為如此,大資料也被質疑為一個炒作出來的偽命題。
維克托也並未直接給出大資料的定義——在《大資料時代》的引言部分,他就明確指出“大資料並非一個確切的概念”。不過,他用三大轉變描述了大資料的特性。他向我詳細闡釋了這三個轉變:
“首先,在大資料時代,我們可以獲得和某個現象相關的所有資料,而不只是少量的樣本。例如一項針對相撲比賽中非法操縱比賽結果的研究對64000場比賽進行了分析,這算不上一個很大的數字,但由於這是過去十年所有的比賽,所以它是大資料。大資料是相對的而非絕對的。”
“第二,由於有了更多的資料,我們可以接受更多的混雜、更多資料上的不精確。如果我們對於一個事物只有50個資料點,那麼每一個資料點都必須非常精確,因為每個資料點都是有用的;但是如果我們有5000萬個,去掉10個,甚至去掉1000個都沒有太大的問題。”
“第三,我們分析大資料主要為了預測未來‘是什麼’,而不是‘為什麼’。我們關注的是揭示哪些事情將會發生的相關關係,而非揭示為什麼這些事情會發生的因果關係。因為很多時候我們以為我們找到了事情背後的原因,實際上卻沒有找到。更多時候知道了‘是什麼’就足夠了。例如知道流感將會擴散到哪裡就足夠了,我不需要知道為什麼;知道什麼時候在網上購買機票能夠獲得最優惠的價格就足夠了,我不需要知道為什麼此時價格最低。”
大資料不應被過分炒作
表面上看,此次出版的兩本書相互矛盾:《大資料時代》強調了資料的價值,而《刪除》卻提出資料應該能夠被“忘記”。對此,維克托表示,兩本書相互補充,而以上的兩個觀點可以完美地相互作用。
“大資料只有在沒有噪音、沒有無用的資料的情況下才能很好地發揮作用。在《刪除》中,我認為我們需要有擺脫那些過時的、和我們現在不相關的資料的可能性。如果亞馬遜忘記了和你當前的興趣與偏好不相關的購書記錄,它推薦書的效果將會更好。只有好的資料才能帶來好的預測。”
對於大資料被過分炒作,維克托也表示擔憂:“它被誇大了,好像一切都突然成為了大資料,大資料能解決所有問題,事實上人們並不瞭解它究竟是什麼;一旦人們發現它不是萬能的,就會感到洩氣,然後大資料就被拋棄了。”在他看來,儘管大資料非常強大,但“人們需要明白它不是什麼,我們不能將它過分誇大”。
對話維克托:資料保留與否應由使用者決定
亞馬遜、Google這些大公司已經積累了很多資料,但小公司、創業公司卻沒有多少資料,在大資料時代他們應該怎麼做?
的確,這很有趣。很長時間以來,這些大公司的強大之處在於他們的伺服器叢集等基礎設施。如今有了雲端計算,創業公司可以根據需要購買計算和儲存能力,以解決基礎設施方面的不足,但他們沒有資料。資料是一些大公司獨家擁有的。當然如果小公司選擇了正確的領域切入,也能夠獲得資料。例如Inrix公司,他們開發導航軟體,還能提供實時路況,告訴你哪裡堵車。他們是怎麼獲得這些資訊的呢?他們的基礎導航服務是免費的,但如果你同意下載這個應用,它就會就會將你的行駛速度等資訊傳回後端,於是你就成為了這個平臺的感測器。每天有數百萬人使用Inrix,因此Inrix擁有數百萬感測器,並獲取了大量的資料。他們能記錄在特定天氣下人們的駕駛速度,並將這些資訊告訴保險公司,或者告訴政府作為加強道路安全的參考。
通常企業只能通過自己蒐集的資料進行預測,但他們的資料是有侷限的。比如我在亞馬遜上搜尋了一本書,但最終通過其他渠道購買了,亞馬遜並不知道,它仍會推薦相關的書,我卻不再需要,如何解決這樣的問題?
事實上目前已經有一些公司在分享自己的資料了,例如在網路廣告領域。不過問題的關鍵在於你自己是否願意你的資料被企業共享,如果你願意讓他們共享資料,你就能獲得更好的推薦。如今在矽谷有一些創業公司正試圖打造由個人、由消費者控制的資訊共享平臺。
相對來說使用者可能會對大公司更加信任,更願意把資訊分享給他們,那麼小公司如何讓使用者分享更多資料?
這不一定。可以換個角度來看,很多人不願意把資料分享給Google或者Facebook,他們認為這些公司過於強大了;他們反倒更願意把資料分享給小公司、創業公司。有意思的是,大資料能幫助大企業,也能幫助小企業,但對中型企業幫助不大。比如200-500人規模的企業,它們不夠小,不像初創企業那麼靈活,也不像Google那麼強大,因而被擠壓在中間,沒有自己的優勢。
未來企業針對大資料的分析是更多依靠雲端計算還是更多依靠企業內部的計算能力?
這完全取決於公司的規模、能力和他們所處的發展階段,沒有一個統一的答案。如今計算和儲存能力都可以從外部獲得,所以一家公司應該看看是使用內部的處理能力還是使用雲端計算更划算。
你認為在大資料時代,與隱私保護相關的法律應該有所調整嗎?
是的。隱私權可以讓個人對網際網路、電子商務更信任;如果沒有隱私權,我會對我在網上所做的事情很謹慎,因為一旦我將某件事告訴別人,我就可能把它收回來了,我無法控制它。所以我們需要隱私法,但隱私法也需要創新。如今歐洲的隱私法規定,企業最多隻能將資料儲存到首要目的完成的時候為止。這是在小資料時代制定的法律,在大資料時代已不再適用,因為資料的價值往往並非體現在其首要用途上,而是在其次要乃至第三位的用途上,可能是你收集資料時並不知道的用途。所以我們要做的是,讓資料不再只能被儲存到它的首要用途完成時為止,而是將決定權交給和資料相關的個人,讓他們來決定是否刪除資料。
在《刪除》中你說應該對企業儲存資料的時間有所限制,這是否會影響企業對於大資料的使用?
我的意思是,資料能儲存多久應該由和資料相關的個人來決定。例如我如果希望我的資料在亞馬遜上保持很長時間,我需要有這個權利和意願;但我必須同時擁有刪除這些資料的權利。亞馬遜也會因此獲益,因為如果我告訴他們“刪除我8年前的購書記錄,因為這和我如今的興趣無關”,這樣能將一些噪音排除,他們的推薦會更精確,我可能會買更多的書。
如果大資料能夠準確預測未來,我們就可以在面臨選擇時做出最合理的選擇,但很多時候我們的個性、我們生活中的快樂正是源自於一些非理性的選擇,大資料是否會讓我們失去這些?
只有當我們知道了真相是什麼、當我們理性的時候,我們才能非理性。我們可以理性地去面對不合理的情況,這是我們主動選擇不理性的,符合人類的習慣。例如資料告訴我抽菸不好,但我依然可以抽菸,這是非理性的,但這個非理性的決定是基於一個理性的選擇,因為我知道了真相,所以我在做選擇時是理性的。如果沒有資料,我就不知道我什麼時候是理性的,什麼時候是非理性的;很多時候我認為我做了一個正確的決定,實際上卻是一個錯誤的決定。所以在有了資料之後我們的生活依然可以很有趣。
你說遺忘是人類的天性,但事實上如今的人類也喪失了一些我們祖先所擁有的能力,那麼人類在數字時代喪失遺忘的能力是否可以被看作是一種進化?
可以這麼說,但進化應該是個緩慢的過程,尤其是要重組大腦。在很偶然的情況下,進化可能會使人類喪失某項能力,但這需要很多年才能完成。