碼教授告訴你大資料具體指的是什麼?

lucky馮帥發表於2018-08-10

  大資料,指的是透過目前主流軟體工具,無法在一定時間內做到採集、儲存、處理、並整理規模巨大的相關資料,從而幫助企業經營決策更好的目的的資訊。

  Gartner研究機構給大資料”作了一個這樣的定義。“大資料”是需要新處理模式才能具有更強的決策力、洞察發現力和流程最佳化能力的海量、高增長率和多樣化的資訊資產。

  大資料最核心的價值就是對海量資料進行儲存和分析。相比起現有的其他技術而言,大資料的“廉價、迅速、最佳化”這三方面的綜合成本是最優的。

  簡言之,從各種各樣型別的資料中,快速獲得有價值資訊的能力,就是大資料技術。

  大資料特點

  1、資料型別繁多(Variety)

  來自不同的資料來源,非結構化資料也越來越多,資料需要進行清洗,整理,篩選等操作,變為結構資料。

  2、資料體量巨大(Volume)

  從TB級別,躍升到PB級別,乃至EB級別。

  3、處理速度快(Velocity)

  1秒定律,可從各種型別的資料中快速獲得高價值的資訊。要求快速響應,市場變化快,要求能及時快速的響應變化,那對資料的分析也要快速,在效能上有更高要求,所以資料量顯得對速度要求有些“大”。

  4、 價值密度低(Value)

  由於資料採集的不及時,資料樣本不全面,資料可能不連續等等,資料可能會失真,但當資料量達到一定規模,可以透過更多的資料達到更真實全面的反饋。只要合理利用資料並對其進行正確、準確的分析,將會帶來很高的價值回報。

  大資料發展歷程

  大資料最先是赫爾曼·霍爾瑞斯為了統計1890年的人口普查資料而發明了一臺電動器來讀取卡片上的洞數,讓美國只用一年時間就完成了原本耗時8年的人口普查活動,此項工作節省大量人力物力,從而開啟了資料處理新篇章。

  1943年,英國一家工廠為了破譯納粹密碼,開發了能大規模進行資料處理的機器,並使用了電子計算機進行運算。

  1997年美國邁克爾·考克斯和大衛·埃爾斯沃斯首次使用“大資料”這一術語來描述遇到的挑戰:在考克斯和埃爾斯沃斯按案例中,計算機生成大量的資訊進行模擬飛機周圍的氣流。資料量之大,超出了主儲存器、本地磁碟,甚至遠端磁碟的承載能力。”他們稱之為“大資料問題。”

  2002年,美國政府為阻止恐怖主義已經涉足大規模資料探勘。前國家安全顧問約翰·波因德克斯組建一個用於篩選通訊、犯罪、教育、金融、醫療和旅行等記錄來識別可疑人的大資料庫。

  2007,隨著社交網路的激增,技術部落格和專業人士為“大資料” 概念注入新的生機。“當前世界範圍內已有的一些其他工具將被大量資料和應用演算法所取代”。

  2009年1月,印度政府建立印度唯一的身份識別管理局,對12億人的指紋、照片和虹膜進行掃描,併為每人分配12位的數字ID號碼,將資料彙集到世界最大的生物識別資料庫中。

  2011年2月,掃描2億年的頁面資訊,或4兆兆位元組磁碟儲存,只需幾秒即可完成。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31549219/viewspace-2199773/,如需轉載,請註明出處,否則將追究法律責任。

相關文章