大資料究竟是什麼?很多人可能仍然有些混淆,本文讓我們來看看大資料的一些主要的定義。首先要注意的是,行業內的所有人都普遍認同,大資料不只是更多的資料。
(1) 最初的大資料
大資料的特徵可以用很多詞來描述。2001年Doug Laney最先提出“3V”模型, 包括數量 (Volume)、速度(Velocity)和種類(Variety)。在那以後,業界很多人把3V擴充套件到了11V,還包括有效性、真實性、價值和可見性等。
(2) 大資料:技術
為什麼12年前的老術語突然被放在聚光燈下?這不僅是因為我們現在擁有比十年前更多的數量、速度和種類。而是因為大資料受到新技術的推動,特別是快速發展的開源技術,例如Hadoop和其他儲存和處理資料的NoSQL方式。
這些新技術的使用者需要一個術語來將它們區別於以前的技術,於是大資料成了他們的最佳選擇。如果你去參加大資料會議,你肯定會發現,涉及關係型資料庫的會議會很少,無論他們鼓吹多少個V。
(3)大資料與資料的區別
大資料技術的問題是,大資料有些含糊不清,以至於行業中的每個供應商都可以跳進來聲稱自己的技術是大資料技術。以下是兩種很好的方法來幫助企業理解現在的大資料與過去單純的大資料的區別。
交易、互動和觀察:這是由Hortonworks公司負責企業戰略的副總裁Shaun Connolly提出的。交易是我們過去收集、儲存和分析的主要資料。互動是人們點選網頁等操作得到的資料。觀察是自動收集的資料。
過程介導資料、人類產生的資訊以及機器生成的資料。
(4)大資料:訊號
SAP公司的Steve Lucas認為,應該根據意圖和時機來劃分這個世界,而不是根據資料的型別。“舊世界”主要是關於交易,當這些交易被記錄時,我們已經無法對它們採取任何行動:企業都在不斷管理“失效的資料”。而在“新世界”,企業可以使用新的“訊號”資料來預測將會發生什麼,並進行干預來改善情況。
相關的案例有,追蹤社交媒體上人們對品牌的態度,以及預測性維護(用複雜的演算法幫助你決定何時需要更換零部件)。
(5) 大資料:機會
這是來自451 Research的Matt Aslett,他將大資料定位為“之前因為技術限制而被忽略的資料”。(雖然在技術上,Matt使用了“暗資料”,而不是大資料,但已經非常接近)。這是筆者最喜歡的定義,因為它符合大部分文章和討論中的說法。
(6) 大資料:隱喻
Rick Smolan在其書中寫道,大資料是“幫助這個星球生成神經系統的過程,其中我們人類只是另一種型別的感測器”。很深奧吧?
(7) 大資料:新瓶裝舊酒
很多專案基本上是使用以前的技術,這些過去被稱為BI或者分析的技術突然跳入大資料的行列中。
底線:儘管大家對大資料的定義有很多爭議,但所有人都同意這個事實:大資料是一個大事件,在未來幾年將帶來巨大的機遇。
來源:cnw網界網