Ayasdi的聯合創始人兼CEO Gurjeet Singht認為:從查詢開始分析資料本身就是一個死衚衕,並指出了當下的大資料只完成了萬里長征的第一步。

許多人都會被震驚,如果他們知道研究人員只是從收集到資料中1%的資料進行分析和提取見解。而就是這1%被分析的資料支配了革新和見解,現在我們稱之為“大資料”。而在每天收集的1 quintillion(百萬3次方)位元組的資料中,有99%的資料完全未被利用。

我們都知道使用大資料非常的有前途,然而基於當下的許多因素,資料的有效利用仍然是個瓶頸。藥物研發過程中,資料的使用多於化學過程;新能源的探測中,資料的使用超過地質學;恐怖分子的追蹤、預防欺騙中同樣如此。

現在我們已經認識到的上述的這些問題和其它一些全域性性問題,都是資料使用的瓶頸所造成的。這種情況催生了大資料上的海量投資,而資料工作同樣成為了最熱門的崗位 —— 資料科學家,更把私人資料分析服務提供商的估值推到數十億美元。然而,你能想象到將分析的資料從1%提升到100%的前景嗎。

 對已有資料分析的見解

如果你擁有一個和人類基因一樣龐大的資料集,你該如何開始?比如,奧巴馬最近提倡對人類大腦進行繪製?為了突破,我們需要解決這個世界上最複雜的問題,我們需要根本上改變從資料中獲取知識的途徑。這裡我們必須首先思考的是:

從查詢開始必然是一個死衚衕:查詢本身並沒有問題。事實上一旦你知道問什麼問題,查詢是至關重要的。同樣這也是關鍵所在:從查詢開始的初衷是從大量的資料中發現一個指標,然而他們並未做到。

資料是有開銷的:大部分情況下,資料的儲存已經不再昂貴。而且通過使用類似Hadoop或Redshift的工具,即使查詢大量的資料都變得非常划算。當然,這只是從硬體的角度上講。

見解就是金錢:我們願意承擔花銷唯一理由就是資料中的見解可以釋放價值。遺憾的是,我們失去了已收集資料中大部分的價值。雖然收集資料的成本可能會很高,但是無效分析帶來的成本顯然更高。當下並不存在什麼工具可以直接從資料中提取見解,我們依賴著非常聰明的人去提出假設,然後使用我們的工具去證實(或者是否定)這些臆測。因為依賴的是臆測,這個途徑存在著天生的缺陷。

你已經擁有了足夠多的資料:這裡經常存在的信念就是 —— “如果我們擁有了足夠多的資料,我們肯定會得到我們想要的。”太多的時間和精力被浪費在新的資料收集上,其實你可以用你手中的資料做更多的事情。舉個例子,Ayasdi最近在Nature Scientific Reports公佈的從12歲乳腺癌患者身上獲得的新見解,就已經被深入分析了10多年之久。

  大資料只是起步,並不是終點

經常會聽到我們在癌症研究、能源勘探、藥物發現、金融欺詐檢測等領域取得了關鍵性突破,如果因為炒作出來的“大資料泡沫”導致人們因為各種原因在資料分析投資上的失敗,這與犯罪又有何不同?

所以我們需要給予資料分析更高的期望,我們更需要認識到下一代解決方案必須滿足:

授權領域專家:資料科學家出現的頻率已完全跟不上企業的需求。這裡不妨這麼做,停止繼續為他們(資料科學家)開發工具;取而代之的是,給商業使用者(生物學家、地質學家、安全分析師等)開發對應的工具。他們比任何人都明白問題出現的環境,但可能跟不上最新的技術或數學。

加速探索:我們需要更快的獲得關鍵見解。事實證明大資料技術的處理速度並沒有承諾的那麼快。如果一直這樣發展下去,可能我們永遠都得不到足夠快的關鍵見解獲得速度,因為我們永遠都不可能針對所有資料提出所有的問題。

人機整合:為了更快的獲得見解,我們需要加大對機器智慧的投資。我們需要機器能在資料點之間尋求連線和關係時擔當更多的重任,讓其給商業使用者一個更好的起點去探索見解。事實上通過演算法途徑解決這些問題是完全可行的,並且人們本身永遠都不可能發現大型資料集上的顯著特徵。例如在最近的一項研究中,通過演算法查詢網路搜尋引擎日誌發現了之前未報告過的藥物副作用。

分析各種形式的資料:當然,研究人員需要分析結構化和非結構化的資料。同樣我們需要認識非結構化資料的多樣性:所有語言、聲音、視訊和麵部識別文件。

當談到大資料演變,我們只處於其初級階段。顯而易見如果我們繼續分析百分之一的資料,那麼我們只能挖掘其1%的價值。如果我們能夠分析其它的99%,那麼想象一下我們可以從各種方面推動世界進步。