大資料在美國已經發展到如火如荼的地步。政府部門、IT企業、零售、醫療等傳統行業以及網際網路、軟硬體公司將大資料能夠帶來的方方面面都展示在人們面前——儘管這些在美國還被認為是“初級階段”——放眼望去,大資料時代已經撼動了美國社會的方方面面,從商業科技到醫療、政府、教育、經濟、人文以及社會的其他各個領域。

因為其背後的沿承和爆發的背景如此重要,目前科技界和學術界的人士甚至預測,大資料作為一項技術和理念本身,很有可能避免成為一下矽谷臭名昭著的“技術成熟度曲線”的受害者。這個曲線曾經昭示,一個新技術誕生後,經過新聞媒體和學術會議的大肆宣傳,該趨勢將一下子跌到谷底,許多創業公司變得岌岌可危,直到發展到一定階段再重新爆發——這個曲線雲端計算曾經且正在經歷,但大資料很有可能“倖免”。

一個說得通的原因是,在目前的美國,“大資料”的概念遠不止大量的資料(TB)和處理大量資料的技術,或者所謂的“4個V”之類的簡單概念,而是涵蓋了人們在大規模資料的基礎上可以做到的事情,而這些事情在小規模資料的基礎上是無法實現的。

所以變革將無法避免。而對大資料的掌握程度可以轉化為經濟價值的來源。

《大資料時代》一書的作者,維克托·邁爾·舍恩伯格上月底來到中國時,向一眾業內和媒體人士著重介紹了其對大資料時代可能產生的價值變革的判斷依據和論斷結果。在回答記者的現場提問時,維克托表示,我們現在討論的商業公司的形式是前大資料時代的模式,那麼在大資料時代,從現有的模式中找模式是非常有問題的。我們要用新思維來衡量一切,包括新的企業模式,企業間關係以及社會、政府、商業等的關係。

大資料的科學價值和社會價值正是體現在這裡。

被改變的政治與政府

一個略有被媒體誇大但基本屬實的案例是,奧巴馬今年成功連任美國總統,其背後那個幾十人構成的資料分析與挖掘團隊至關重要。

這支團隊在2008年奧巴馬競選時就已存在併發揮作用。而這次,他們更動用了5倍於上屆的人員規模,且進行了更大規模與深入的資料探勘。它幫助奧巴馬在獲取有效選民、投放廣告、募集資金方面起到一定作用。事實證明,奧巴馬募集到的資金儘管與對手羅姆尼募集的資金規模不相上下,但前者從普通民眾直接募集到的資金是後者的近兩倍。據一項調查顯示,奧巴馬團隊籌得的第一個1億美金中,98% 來自於小於250美金的小額捐款,而羅姆尼團隊在籌得相同數額捐款的情況下,這一比例僅為31%。

以競選工作組發言人Ben LaBolt的話來形容:奧巴馬團隊擁有“核程式碼”——資料是能夠擊敗羅姆尼的最根本優勢。更“極端”的說法是,奧巴馬勝選的原因不在於經濟、外交政策或是婦女問題,而是贏在大資料!

當然,這個說法難免牽強,但仍可以看做美國政治或者說政界人士受到科技的影響越來越大——據《大資料:正在到來的資料革命》一書作者徐子沛在不久前的一次沙龍上透露,目前美國許多政界人士都十分重視社交網路,並期冀通過資料探勘和資料分析從中獲益。而資料創新給公民、政府、社會帶來的種種挑戰和變革,已經深入人心。

但社交媒體分析,僅僅是大資料“冰山一角”的部分。

在目前已被認可的範疇中,大資料的價值鏈中,資料本身、技能以及思維三個層面是核心競爭領域,社交媒體分析可以看做是資料分析技能層面的細分領域,也是傳統資料探勘範疇下的新變種。

在資料領域佔據領先地位的美國,已經在這三個層面都取得了長足發展,其中,政府層面的變化極為明顯,甚至將資料價值提升到了國家戰略層面——2012年3月,奧巴馬政府宣佈 “大資料的研究和發展計劃。”白宮宣告公開稱:“通過提高我們從大型複雜的數字資料集中提取知識和觀點的能力,承諾幫助加快在科學與工程中的步伐,加強國家安全,並改變教學研究。”

在這個計劃裡,美國國家科學基金、國家衛生研究院、能源部、國防部、國防部高階研究計劃局、地質勘探局等6個聯邦政府部門,宣佈將啟動2億美元的投資計劃,提高從大量數字資料中訪問、組織、收集發現資訊的工具和技術水平,從而瞭解更多正在進行的聯邦政府的計劃,解決所大資料所帶來的機遇和挑戰,並計劃與工業界、大學研究界、非營利性機構與管理者一起利用大資料所創造的機會。

其中,美國國家衛生研究院開展的免費開放由國際千人基因組計劃,它將建立的人類遺傳變異研究資料集,供研究人員自由訪問和使用;美國國家科學基金會和美國國家衛生研究院將對大資料進行聯合招標,改進核心科學與技術手段,提高從各種大型資料集中提取重要資訊並對其進行有效管理、分析和視覺化的能力;美國國防部則計劃每年投資2.5億美元左右,在各個軍事部門開展一系列研究計劃,旨在以創新方式使用海量資料,通過感知、認知和決策支援的結合,加強大資料決策力;美國能源部則將斥資2500萬美元建立可擴充套件資料管理與視覺化研究所(SDAV),幫助科學家對資料進行有效管理,促進其生物和環境研究計劃、美國核資料計劃等的研究成果……

而作為奧巴馬開放政府承諾的產物,2009年至今Data.gov全面開放了40萬聯邦政府原始資料集。日前Data.gov宣佈採用新“開源政府平臺”管理資料,程式碼將向各國開發者開放。從這個角度看,大資料已成為美國國家創新戰略、國家安全戰略、國家ICT產業發展戰略以及國家資訊網路安全戰略的交叉領域、核心領域。

當然從現在來看,說大資料改變美國政治或政府的確有些誇張,但從另一層面看,美國政府的開放性資料服務轉型正走在世界前列。

被變革的行業與產業

大資料價值本身的被認知與被挖掘,建立在一個前提下——資料化。我們不能將資料化等同為數字化,後者不過是將模擬資料轉換為二進位制碼方便計算機儲存和分析,而前者則是把日常生活、生產、商業等方方面面的現象轉化為可製表分析的量化形式的過程。

正是這個過程,形成了各行各業的變革力量——因為這是大資料時代所獨有的一種新型能力:以一種前所未有的方式,通過對海量資料進行分析,獲得有巨大價值的產品和服務,或深刻的洞見。

中科院計算所所長孫凝暉對此表示,“大資料在未來很可能會成為一個新的行業,而且大資料本身也超越了網際網路行業,不僅僅是在網路,生物基因本身也是大資料,各個物種的基因資料產生以後也會產生很多的學術價值、商業價值。”這種說法並非沒有依據。

從美國市場上已經發生的案例來看,網際網路行業、商業智慧與諮詢服務領域、零售行業受益最大,但醫療、衛生、交通、物流甚至生物科技、天文等領域,都開始“承認”大資料的價值。事實上在美國各個行業和應用領域,大資料的應用已經遍地開花。

網際網路行業,雅虎於 2008 年初便開始啟用大資料技術,每天分析超過 200PB 的資料,使得雅虎的服務變得更人性化,更貼近使用者和客戶。它與雅虎 IT 系統的方方面面進行協作,包括搜尋、廣告、使用者體驗和欺詐發現等;為了更深入的瞭解每一個使用者,亞馬遜不僅從每個使用者的購買行為中獲得資訊,還將每個使用者在其網站上的所有行為都記錄下來,這些資料的有效分析使得亞馬遜對於客戶的購買行為和喜好有了全方位瞭解,對於其貨品種類、庫存、倉儲、物流、及廣告業務上都有著極大的效益回饋。

醫療衛生領域的應用也正在爆發——賈伯斯通過大資料輔助癌症治療,通過智慧手機上的應用程式來監測病人的身體顫動,甚至如丹麥癌症協會通過大資料來研究手機使用是否致癌,還有微軟這樣的公司來分析病患的再入住率等。最著名的案例來自谷歌——在2009年,甲型H1N1流感爆發的幾周前,網際網路巨頭谷歌公司的工程師們在《自然》雜誌上發表了一篇引人注目的論文。它令公共衛生官員們和電腦科學家們感到震驚——文中表示,和疾控中心一樣,谷歌也能判斷出流感是從哪裡傳播出來的,而且他們的判斷非常及時,不會像疾控中心一樣要在流感爆發一兩週之後才可以做到。谷歌公司發現能夠通過人們在網上檢索的詞條辨別出其是否感染了流感後,把5 000萬條美國人最頻繁檢索的詞條和美國疾控中心在2003年至2008年間季節性流感傳播時期的資料進行了比較。而通過一個數學模型處理後,他們的預測與官方資料的相關性高達97%。所以,2009年甲型H1N1流感爆發的時候,與習慣性滯後的官方資料相比,谷歌成為了一個更有效、更及時的指示標。公共衛生機構的官員獲得了非常有價值的資料資訊。

不得不提的還有零售行業。實際上,諸如沃爾瑪、Tesco(英國零售巨頭)等巨頭已從資料中獲得了巨大的利益,也因此鞏固了自己在業界的長盛不衰。以曾經因“少女懷孕事件”而成為大資料典型案例的Tesco公司為例,這家全球利潤第二大的零售商從其會員卡的使用者購買記錄中,充分了解一個使用者是什麼“類別”的客人,如速食者、單身、有上學孩子的家庭等等,並基於這些分類進行一系列的業務活動,比如,通過郵件或信件寄給使用者的促銷可以變得十分個性化,店內的上架商品及促銷也可以根據周圍人群的喜好、消費的時段來更加有針對性,從而提高貨品的流通。這樣的做法為 Tesco 獲得了豐厚的回報,僅在市場宣傳一項,就能幫助 Tesco 每年節省 3.5 億英鎊的費用。

此外在能源行業,SaaS型軟體公司Opower 使用資料來提高消費用電的能效,並取得了顯著的成功——Opower 與多家電力公司合作,分析美國家庭用電費用並將之與周圍的鄰居用電情況進行對比,被服務的家庭每個月都會收到一份對比的報告,顯示自家用電在整個區域或全美類似家庭所處水平,以鼓勵節約用電。據報導,Opower 的服務已覆蓋了美國幾百萬戶居民家庭,預計為美國消費用電每年節省 5 億美元。

最值得一提的是生物資訊行業。生物資訊是繼網際網路行業之後資料迸發最迅速的行業,並將遠遠超過網際網路產生的資料:人類用 0 和 1 創造了虛擬世界,而造物主用 A/C/T/G 四種元素創造了萬物生靈,生命的產生、發展、消亡的奧祕盡在其中。隨著測序技術的發展,全基因組的測序價格由十年前的上億美元降至今天的數千美元,這使得更多人、物種的 DNA資訊的獲取成為可能。個體全基因組資訊的獲取,使得個性化診療服務成為可能。大資料時代,一切的一切都存在著可能,而這一切的改變我們也正在體驗之中。

被重塑的價值與思維

事實上,自20世紀末以來,資訊變革一直在發生,但此前都集中在技術上,而大資料時代的到了讓我們開始關注資訊本身。

資料一貫被我們冠以“精確”的標籤,但維克托·邁爾·舍恩伯格認為,“執迷於精確性是資訊缺乏時代和模擬時代的產物,只有5%的資料時有框架且能適用於傳統資料庫的。如果不接受模糊,那麼95%的非框架資料都無法被利用,只有接受不精確性,我們才能開啟一扇從未涉足的世界的窗戶。”

換句話說,全樣本時代的大資料的簡單演算法,比小資料的複雜演算法更有效。Google的翻譯系統備受好評,但它不需要像IBM曾重金打造的Candide系統一樣精確的翻譯300萬句話,而是靠掌握的不同語言翻譯的質量參差不齊的數百億頁文件——它把語言看做是可以判別可能性的資料,而不是語言本身。這個例子意味著,我們不再需要擔心某個資料點對整套分析的不利影響,而是要接受這些紛繁的資料並從中收益,而不是以高昂的代價消除所有的不確定性。

大資料的科學價值和社會價值正是體現在這裡。一方面,對大資料的掌握程度可以轉化為經濟價值的來源。不過一個問題是,另一方面,大資料時代已經撼動了世界的方方面面,從商業科技到醫療、政府、教育、經濟、人文以及社會的其他各個領域——最簡單的,亞馬遜可以幫我們推薦想要的書,谷歌可以為關聯網站排序,facebook知道我們的喜好,而 LinkedIn可以猜出我們認識誰。當然,同樣的技術也可以運用到疾病診斷、推薦治療措施,甚至是識別潛在犯罪分子上。

一個更美好的比喻是:“如果說20世紀是一個石油為王的時代,21世紀就是一個資料為王的時代,21世紀資料的價值有可能等同於20世紀的石油。”值得注意的是,目前網際網路為主的技術和服務能力對大資料的處理和挖掘還遠遠不夠,未來會有更多的有價值的資料從海量的大資料裡發掘出來,產生很多新的商業形態、新的企業和新的服務。

但大資料的變革力量還不止於此——最核心的論題是,大資料只提供參考答案,不是最終答案。因為它放棄了對因果關係的渴求,而只關注相關關係——只需要知道是什麼,而不需知道為什麼——這徹底推翻了自古以來的慣例,所以我們理解現實和做決定的基礎也將受到根本性挑戰。在這種情況下,大資料將與網際網路的發明一樣,這絕不僅僅是資訊科技領域的革命,更是在全球範圍啟動透明政府、加速行業企業創新、引領社會變革的利器。

從這個角度出發,技術革新之外,思維模式的革新和管理變革不可避免,資料驅動型的企業和政府正在變得可能。

  透視美國大資料爆發全景,一場生活、工作與思維的大變革正在發生。

 

via:enet.com.cn