美劇你愛追麼?這些美劇你看過麼?這些美劇和大資料有聯絡你造麼?

什麼?你不造?學統計的怎麼能不造?難道一直做題目不枯燥麼?有空看看這些吧,在娛樂中學習,一舉兩得!再也不用擔心看劇找不到藉口了!

你看得見,或者看不見,大資料就在那裡,不悲不喜;你愛它,恨它,大資料每天圍繞著你,不離不棄。希望通過這幾部精彩的美劇,讓大家對大資料技術的應用以及未來的發展方向有更加深刻的理解。

大資料,或稱巨量資料,是由數量巨大、結構複雜、型別眾多資料構成的資料集合,是基於雲端計算的資料處理與應用模式,通過資料的整合共享,交叉複用形成的智力資源和知識服務能力。“IBM大資料平臺”定義了大資料的四個維度,也稱為“大資料4V”,即Volume(海量),Velocity(高速), Variety(多樣), Veracity(真實)。

Volume (海量)

“大資料”故名思義,要足夠“大”,目前全球每天創造2.3萬億GB的資料,每個中型企業至少儲存了10萬GB的資料。如此大量的資料如果高效率地蒐集整理出來,會對我們的生活產生怎樣的影響?

美劇 “Person of Interest”(中譯:疑犯追蹤) 給了我們最生動的說明:

在這部劇中,軟體天才Finch 發明了一個被稱為“The Machine”的系統,其本意是通過攝像頭和無處不在的監聽系統蒐集面部表情、聲音、動作等巨量資料,並建立一套分析模式,以圖在恐怖襲擊事件發生之前就判斷出行凶者或受害人,並加以阻止。

大資料的此類應用在我們生活中已經非常常見,“信用評級”就是基於這樣的邏輯設立,由於蒐集到資料量足夠大(比如個 人的收入狀況、消費水平、資產情況等)銀行等金融機構可以根據申請人的資訊,判斷其是否還得起貸款,或發出的信用卡應給多少額度,等等。

但是,由於大資料系統的應用,劇中的整個美國只要有攝像頭的地方都被嚴格地監控著,任何人在這樣的系統下都無所遁形,個人隱私也無法得到保障;此外,Finch的程式賦予了整個系統人工智慧甚至獨立思考的能力,在劇中也多次出現the Machine通過自己的“主觀判斷”拯救其主人和他團隊的鏡頭。這不禁讓我們思考,未來當大資料進一步滲透我們的生活,是否有一天機器會獲得自我思考的能力,反過來控制人類呢?

Velocity(高速)

大資料另一個特性是“高速”。到2016年,全世界預計將擁有189億個網路連線,地球上平均每個人都將有2.5個接入網際網路的埠;如此廣泛的網路連線導致我們對於資料流的獲取和分析速度越來越快,紐交所的系統每個交易日就可捕獲1TB的交易資料,金山雲每日僅來自小米使用者上傳的資料就多大500個T以上,現代汽車上有超過100個感測器用來實時檢測燃料水平、胎 壓等等。對於資料分析速度越來越嚴苛的要求,也反過來推動硬體技術的不斷髮展,對此,美劇 “Intelligence” (中譯:超腦特工)給出了非常形象的描述:

劇中主人公Gabriel Vaughn 是前美國三角洲特種部隊隊員,因為他具有一種被稱為Athens-4U7R的獨特基因變異,可以對計算機晶片不產生排異反應,“美國網路戰指揮部”招募了 他,並在他的腦中植入了一枚堪比超級計算機的晶片,令其能在有效距離之內接收或控制所有電磁頻譜。他成為世界上第一個能夠用大腦直連網際網路、Wifi訊號、電話通訊和衛星資料的人類,僅憑大腦就能入侵世界上任何資料中心或者獲取關鍵情報,在最短的時間內從遍及世界的「電子網格」中獲取任何資訊。
這部劇可以說是資料流分析速度的極致體現。Gabriel在劇中具有的一項特殊能力 “網路渲染” (Cyber Render), 他在腦中整合巨量的資料,融合事實和推理形成一面“虛擬證據牆”。腦中的晶片幫助他在幾秒鐘內破解任何懸疑案件,找出事實的真相。而現實生活中,對大資料 高速特性的應用則在投資領域多有涉及,如通過基於海量新聞資料抓取而開發的“新聞選股”系統,或者對於社交網路上各類資訊的蒐集整理而形成的“輿情選股” 系統等,其速度和效率是券商分析師無法與之比擬的。

Variety(多樣)

從諸如Facebook、Twitter之類的社交網站上釋出的資訊,Youtube、Youku之類網站上的視訊,到智慧手環檢測到的心率、血壓等健康狀況資料,以及醫療機構蒐集的病歷等,大資料的形式可謂包羅永珍。而美劇 “Touch” (中譯:觸控未來)將大資料的這一特質賦予了超自然力量:

“我叫Jake,我出生於4161天前,即2000年10月26日。我和70億8千零36萬人生活在這個地球上,這是個關於其中某些人的故事。今天平均每人對 7.4個人說2250個字,發出超過3000億封的郵件,190億條簡訊,構成各種模式和比例的交織,甚是壯觀,以數學形式表現。這些模式隱匿於眾目睽睽 之下,只須摸清門道,方解其中奧祕,可只有少數人能看清其中的關聯”,“這一切全由數學概率註定,而我的職責就是追蹤這些數字,為找尋彼此,渴求生命交匯 的雙方牽線搭橋。”

Jake 是劇中主人公 Martin Bohm的兒子,患有自閉症,出生十一年來從未說過一句話,他是所謂的 “36義人” 之一,是上帝的選民,無需學習就掌握了”上帝數列”,也就是我們常說的“斐波那契數列”。他用數字理解諸如銀河星系,莊稼植被,海洋貝類等世界上任何的行 為模式和資訊,通過近似“心靈感應”的方式來與其他的“義人”溝通,將人們從世界上存在的痛苦(在他理解中,是宇宙秩序的失衡)中解救出來。

Veracity(真實)

在IBM大資料中心的定義中,這個維度本身強調的是資料的準確性,並指出不準確的資料導致的危害,比如,美國經濟每年因為資料質量差而導致的損失高達3.1萬億美金。而我們要推薦的這部美劇“House of Cards”(中譯:紙牌屋),對這個維度有一點點的曲解,但它是大資料本身“真實性”的最佳寫照。

《紙牌屋》的製作方,美國的Netflix公司,是一家線上影片租賃提供商,在全球有 3300萬訂閱使用者,它比誰都清楚大家喜歡看什麼樣的電影和電視。有研究表明每天的高峰時段網路下載量都是出自Netflix 的流媒體服務,每天使用者在Netflix 上產生3000 萬多個行為,如暫停、回放或者快進時,都會產生一個行為,Netflix 的訂閱使用者每天還會給出400 萬個評分、300 萬次搜尋請求、詢問劇集播放時間和裝置等。它通過對這些資料的挖掘,分析,已經知道使用者很喜歡David Fincher(《社交網路》、《七宗罪》的導演),也知道 Kevin Spacey 主演的片子表現都不錯,還知道英劇版的《紙牌屋》很受歡迎,三者的交集告訴Netflix值得在這件事上賭一把,因此投資了一億美元請來Fincher導演,Spacey主演並買下英劇版權,首次進軍原創劇集就一炮而紅,在美國及40 多個國家成為最熱門的線上劇集。

在現實生活中,用大資料蒐集使用者的興趣、職業、消費行為等,從而進行營銷推廣,已經是非常普遍的應用場景了,而Netflix更是將大資料本身的威力演化為一款產品,迅速打動了億萬使用者,將大資料的應用做到了極致。

自:美林大資料