大資料

當我端起一杯茶,喝上一口,我知道自己所品味的清香是實在的物,不是資料;我喝茶這個過程是客觀的動作事實,也不是資料。以此類推,人的工作和生活,都由各種實事實物構成,本身並不是資料。那,我們要資料何干?我們還要追捧“大資料”何干?

人類為什麼要資料?

1、人追求自我實現。

所有生物體都有一個本能:汲取更多的外部能量,實現無休止的自我繁延。在漫長的自然競爭中,生物與非生物及各種生物之間在各自本能驅動和外部約束下建立起動態平衡。任何生物體對外部的適應和改造,都要基於一個共同的過程:“接收-內部處理-外部反饋”。這個過程中,既改造世界,也改變自身。

人類無疑是生物群落中卓有成效的一支。我們自祖先起逐步發明了一套獨特的“刺激-反應”系統。這套系統突破了每個個體自身能力的侷限,而意圖將各個個體聯合起來。為此,最成功的努力是:對個體遇到的外部資訊進行編碼,進而對個體成功的經驗進行編碼,以便不同個體之間展開交流和協同,甚至隔代傳承。

最初的編碼,是散見於各古文明遺址的圖騰或符號。這些符號複雜化之後,演繹出三種功能化的應用:一是數字,用於計數,發展為數學;二是文字,用於表意,發展為文學;三是影像,用於渲染,發展為藝術。

在一個相當長的時期內,三類應用被逐步強化,進化了符號的表示式、印刷術、繪圖工具和計算器,由此,人類群體的知識、技術及藝術的持續創新和積累呈加速度發展,人類的經濟和社會生活也走向了全面協同和繁榮。

這種繁榮已經經歷了二個大時代,一是以中國唐宋時代為代表的農業文明,二是以20世紀歐美為主體的500強企業為代表的工業文明。兩個大時代的背後,都是導由於人類對世界認識和改造能力的二次飛躍。21世紀開始,第三次飛躍發生了。

2、資料化讓人類能力突飛猛進

第三次飛躍,就是大資料應用的出現。它讓人類對世界的編碼實踐進入了全新的歷史階段。

首先是範圍大擴充。

  • 1、環境資料化:建築體、地表、地下全息化的堪測和描述;逐步加深的對大氣、月球、外太空的探測和描述。
  • 2、物質資料化:各種物質元素的分析表述;各種生物(包括人)基因的分析表述;各種人工產品的計算和紀錄。
  • 3、行為資料化:全部生物(包括人類)個體行為的採集和紀錄,社會性行動的採集和紀錄。
  • 4、知識資料化:概念、經驗、技能、用例、程式、標準等的歸集和紀錄。
  • 5、關係資料化:身份、信用(包括支付憑證)、權益、義務、榮譽、形象等虛似化並形成共同合約化機制。

其次是結構大突破。

目前所知的資料,呈現出多種不同的結構形態比如:數字、文字、聲音、影像、視訊。不同結構之間的互譯互通,不但使人們對特定物件的認識實現直正的全息全程,而且令人類文明起步時數字、文字和藝術的分裂重歸溶合。這種對資料結構的突破錶現在:

  • 同源異構:即使來源於同一學校:有文字化的教案資料,有視訊化的學生活動,有圖片化的建築設計,還有校園網路門戶、學習群組貼吧。。。即使都來自一家公司:有產品設計原型,有裝置感測資訊,有資產財務檔案,有市場客戶活動,有工作會議與專案程式。。。異構資訊的解讀和互譯是各種私有云應用的前提。
  • 同構異源:即使都是數字化的資訊,可能是消費紀錄,也可能是體檢記錄,或者是考試成績,甚至是績效測評。。。這些資訊如何在一個人身上整合運算?即使都是視訊化的資訊:有網路對話的,有交通監測的,有新聞採訪的,有編導製作的。。。這些資訊如何圍繞一個目標整合分析?異源資訊的整合關鍵在於目標與價值設定之後的關聯資訊甑別、賦權和轉化的演算法。
  • 異源異構:不同物件,不同結構,不同來源。這是立體社群或數字城市的命題。各種公有云的解決方案正在對此展開相像並轉為爭先恐後的實踐。

再次是計算大超越

計算能力分為集中計算和分佈計算兩條戰線。集中計算實驗機的競爭一直未見厭倦。最近一則中國領先的訊息讓部分國人一時振奮。從電子計算到量子計算到生物計算,工藝材料變革和計算模式創新交替發揮推動力。直到相比之下,大腦自身的計算能力可以忽略不計。
更具革命性的是分散式計算,即雲端計算的應用。這種聯絡全世界計算能力的構想,就是聯絡全人類心智的上帝,它將人類久遠的夢想推向可以觸控的現實。雲端計算在聯結計算能力的同時,也聯通了分散式的資料和行為,“地球村”從概念進入了實踐。

公有云和私有云至今沒有一致的分割槽認定。也許可以將基於雲端計算之上的公共性質的應用歸為公有云,與此相對,任何圍繞特定利益主體的專屬性應用都是私有云。比如:穿戴式或行動式裝置與個人資料中心的互聯可能構成“個人雲”,而智慧家居與成員資訊的互聯則構成“家庭雲”,以此類推,則有企業雲、學校雲、醫院雲。。。

最後是儲存大升級

大資料需要大儲存。解決大儲存有三種思路:

  • 一是硬碟加大。這是開始時的努力。很多的提供雲儲存服務的巨頭,不可避免地上馬巨集大的資料中心工程專案,但這種既不經濟又不環保的方式恐怕是不可持續的。
  • 二是演算法革新。儲存虛擬化:通過合併孤立的儲存池,按整個網路的需求而不是按每種應用的需求確定儲存空間的大小,即使跨多個檔案伺服器或SAN也可以靈活應用。生物儲存:人類基因組序列中,1克的重量可以包含幾十億GB的資料量,在少數科學家那裡,新的DNA歸檔系統正在替代傳統的1到0的編碼規則。光儲存的優化:光量子資料儲存技術、三維體儲存技術、近場光學技術、光學整合技術的發展,光儲存技術也將是廣泛應用之一。
  • 三是管理創新。資料管理包括攝入、記錄、傳播、加工、儲存、安全,而同樣重要一環是“刪除”。對無效和低效資料的識別和刪除,是未來技術應用的熱區。

3、大資料讓個體與群體共同再造。

大資料讓外在環境在人類面前無所無所遁形,也讓貌似混亂的社會化行動開始有跡有循,大資料讓不同產業之間拆除了隔牆,也讓各不個體的專業化分工走向了協同。

這樣個體和群體同時受益的創新,在工業時代並不多見。

大資料如何提升了個人能力?

  • 識別能力:你可以更全面地瞭解一個關係緊密的人,當然也可能因此而發現了對方隱藏的缺點而導致分手。你可以輕易區分肉眼無法看清的物件或者事理,雖然有些人由此心存僥倖去搏彩或抄股。
  • 記憶能力:記憶可以安心地藉助外部裝置來實現,心智的重點可能會傾向當期的體驗。中國人最想做的第一件事,也許是學外語的壓力可以交給可穿戴的即時交流裝置。
  • 運算能力:從掰手指,到用心算,到算盤計算器,到軟體和雲端計算,運算的加快不只是製造產品上,更體現在創作作品上,包括為大家寄予厚望的天體物理學家、生物藥學家或者心理學家們加速證明那一個個影響深遠假說和治病救人的良方。

大資料如何提升了團隊的能力:

知識共享。維基百科也許原始得像大資料時代的“甲骨文”,但它啟示了知識共享的新方式。每一個團隊,每一個企業,每一個開放平臺,都會產生自己的維基百科。

協同反饋。書信消失之後,電子郵件也正在消失,即時通訊正在變換著身法,以延口殘喘。暫不能預見即時通訊之後是什麼,相信不再需要一個共同的埠,不管是QQ、微信或者宜信、來住。。。

合作創新。個人發明不再可能,合作而不創新也不同可能,產品即是用品,合作即是服務。

大資料是大眾的,但對大資料的歡迎卻從商家先開始,這預示著另一種戰場的另一場殺戮嗎?這是下一篇的話題了。

by:卜安洵

自:36大資料