大資料不難,難的是會用

“大資料”是當下人們最熱衷討論的“概念,很多人也確實只停留在“概念”層面上。實際上,對於大資料的應用,已經有很多先進案例可供借鑑。我們先來看一個林彪的例子。

沒錯,林彪。

劉湘明先生在《商業價值》上介紹了1948年林彪在戰場上利用大資料的故事:

"話說林彪從帶兵開始,身邊就有個本子,每次打完仗,他就把戰果記在上面,不厭其煩。不瞭解的人,還以為他以此為樂。

遼瀋戰役打響後,無論戰情如何緊急,多麼疲憊,林彪依然每天堅持聽軍情彙報,而且要求很細:俘虜要分清軍官和士兵;繳獲的槍支要統計出機槍、長槍、短槍;擊毀的和還能使用的汽車要分出大小和類別,每份戰報幾乎都是千篇一律的枯燥資料。

一天深夜,值班參謀正讀著一份遭遇戰的戰報,林彪突然叫‘停’。他問周圍的人:‘剛才唸的那個戰鬥的繳獲你們聽到了嗎?’周圍的人滿臉都是睡意和茫然,因為像這樣的戰鬥每天都有幾十起,只是枯燥的數字稍有不同。

林彪見無人回答,便接連提出3個問題:“為什麼那兒繳獲的短槍與長槍的比例比其他的戰鬥略高?為什麼那兒繳獲和擊毀的小車與大車的比例比其他的戰場略高?為什麼那兒俘獲和擊斃的軍官與士兵的比例比一般殲敵略高?”

人們還沒來得及思索,林彪已指著軍用地圖說:“我猜想……不,我斷定!敵人的野戰指揮所就在這兒!”隨後林彪命令全力追擊從該處逃走的敵人。敵軍首領廖耀湘剛剛還在慶幸自己在意外的遭遇戰中倖免於難,很快就發現被漫山遍野的解放軍團團圍住……遼瀋戰役就此塵埃落地。“

講完故事後,劉湘明總結道:

“第一,大資料並不神祕,古已有之;

第二,資料的收集最重要,但是一件長期且困難的事情;

第三,利用好大資料,依然需要敏銳的洞察和創新的思維。”

圖片說明文字

你幸福嗎?我信大資料

利用大資料這回事,是不怕做不到,就怕想不到,我們再來看看國外幾個關於大資料的例子。

“你幸福嗎?”問莫言、易中天、還是問普京?其實,不如問問網路上的“大資料”,它真有答案。

美國佛蒙特大學的數學家和MITRE公司的科學家們,從推特、《紐約時報》和谷歌趨勢中,蒐集上萬個展示情緒的詞,如“大笑”、“幸福”、“愛”和“孤獨”、“糟糕”、“通貨膨脹”以及咒罵,並將它們分成9個等級,建立了反映情緒高低變化的資料庫,以此算出每天“幸福指數”。

通過目測可以發現,自從2008以來,全球幸福指數一直下滑(或許是因為金融危機)。而且研究發現,人們通常會感覺星期六比星期二幸福,而聖誕節是一年中最幸福的日子。波士頓爆炸案發生的4月5日,是有記錄以來最難過的日子。

有趣的發現是,推特使用者離家越遠,他們會感到越幸福。

大資料預測大事件,比專家更靠譜

“幸福指數”是預測,微軟研究院和色列理工大學的研究者著通過挖掘《紐約時報》過去22年的內容、維基百科和其他90家網站資源,來預測未來的疾病和霍亂等大事件。在這個領域,一般只能通過經常回顧來做分析。

圖片說明文字

相比人類傾向於輕易得到現成的知識,資料探勘軟體更具優勢,因為軟體可以不帶偏見的在海量資訊中無休止的研究,從而挖掘出一些人類也許永遠不可能發現的資訊。而且軟體可以學習新的聯想方法,因此研發人員讓軟體“學會”去擴充套件視野,或者忽略一些資訊。

大資料應用比賽:IBM搞出了兩條公交車線路

IBM的案例也非常有意思:他們利用手機的資料,為城市規劃了兩條新公交車線路。

近期,法國電信運營商Orange提供了非洲象牙海岸500萬手機使用者的25億條匿名通話記錄,以此舉辦了“資料推動發展”比賽。

IBM公司的研究人員發現,通話資料可以根據附近的天線塔來定位人們打電話時的位置,雖然沒GPS那麼精確,但也足夠了。研究人員根據資料發現了這個城市的公交需求:新增兩條、延長一條公交路線,並讓人們在這個城市的出行時間減少了10%。

然而研究人員稱,相對這些資料的所有潛能來說,這些應用還只是皮毛。

大資料,不樂觀

回到講林彪利用大資料的那篇文章,它的標題是《大資料,不樂觀》,其結尾這樣寫道:

“因為從文化來講,中國歷史上就不是習慣於用數字管理的國家,而美國人連飛機漆成什麼顏色更容易被擊落都會進行統計。這種意識上的差異,就造成了我們骨子裡對於資料的重視程度遠遠不夠,這會在資料的採集、利用和分析上,帶來很多問題。

最直接的一個例子,在公開的美國政府網站Data.gov上,大約有超過40萬各種原始資料檔案,涵蓋農業、金融、就業等近50個分類。美國官方稱這麼做的目的是‘方便公眾更便捷地獲得聯邦政府資料,並通過鼓勵創新突破政府的圍牆而創造性地使用這些資料’。

這個差距就足夠追趕了。“

大資料,別作惡

要運用大資料,首先得充分佔用資料。不過有些佔有方式,聽起來讓人心裡毛毛的。

曾經有人說,誰掌握了瀏覽器,誰就掌握了網際網路,而在移動網際網路時代,網際網路入口變得更加多元。相應的,使用者被保留下“數字足跡”的途徑也更多了。

Mashable.com的文章指出,Google、Yahoo、Bing這些搜尋引擎,一般會把你的搜尋內容——包括那些令人尷尬的搜尋內容——儲存在他們的伺服器上長達18個月。類似的,蘋果的語音助手Siri的記憶力也很厲害:它會把你詢問的問題傳送到蘋果的伺服器,然後儲存兩年。

網路服務提供商(ISP)們也在記錄你的“一舉一動”,他們記錄IP地址的時長從72小時到18個月不等。

圖片說明文字

最霸道的還要數手機網路運營商,無論你撥打的號碼還是傳送的簡訊,都會被他們記錄,有的簡訊內容甚至會被保留7年之久。

最關鍵的是,資料如何保留,全由公司自己決定,目前還沒有法律來管束。

商業巨頭們用你我貢獻出的大資料來獲利,這無可厚非,我們所希望的只能是,掌握大資料的人,不要做惡。

自:泛媒觀點