大資料

如果僅僅是海量的結構性資料,那麼解決的辦法就比較的單一,使用者通過購買更多的儲存裝置,提高儲存裝置的效率等解決此類問題。然而,當人們發現資料庫中的資料可以分為三種型別:結構性資料、非結構性資料以及半結構性資料等複雜情況時,問題似乎就沒有那麼簡單了。

大資料洶湧來襲

當型別複雜的資料洶湧襲來,那麼對於使用者IT系統的衝擊又會是另外一種處理方式。很多業內專家和第三方調查機構通過一些市場調查資料發現,大資料時代即將到來。有調查發現,這些複雜資料中有85%的資料屬於廣泛存在於社交網路、物聯網、電子商務等之中的非結構化資料。這些非結構化資料的產生往往伴隨著社交網路、移動計算和感測器等新的渠道和技術的不斷湧現和應用。

如今大資料的概念也存在著很多的炒作和大量的不確定性。為此,編者詳細向一些業內專家詳細瞭解有關方面的問題,請他們談一談,大資料是什麼和不是什麼,以及如何應對大資料等問題,將系列文章的形式與網友見面。

有人將多TB資料集也稱作”大資料”。據市場研究公司IDC統計,資料使用預計將增長44倍,全球資料使用量將達到大約35.2ZB(1ZB = 10億TB)。然而,單個資料集的檔案尺寸也將增加,導致對更大處理能力的需求以便分析和理解這些資料集。

EMC曾經表示,它的1000多個客戶在其陣列中使用1PB(千兆兆)以上的資料資料,這個數字到2020年將增長到10萬。一些客戶在一兩年內還將開始使用數千倍多的資料,1EB(1艾位元組 = 10億GB)或者更多的資料。

對大企業而言,大資料的興起部分是因為計算能力可用更低的成本獲得,且各類系統如今已能夠執行多工處理。其次,記憶體的成本也在直線下降,企業可以在記憶體中處理比以往更多的資料,另外是把計算機聚合成伺服器叢集越來越簡單。IDC認為,這三大因素的結合便催生了大資料。同時,IDC還表示,某項技術要想成為大資料技術,首先必須是成本可承受的,其次是必須滿足IBM所描述的三個”V”判據中的兩個:多樣性(variety)、體量(volume)和速度(velocity)。

大資料與海量資料的區別

多樣性是指,資料應包含結構化的和非結構化的資料。

體量是指聚合在一起供分析的資料量必須是非常龐大的。

而速度則是指資料處理的速度必須很快。

大資料”並非總是說有數百個TB才算得上。根據實際使用情況,有時候數百個GB的資料也可稱為大資料,這主要要看它的第三個維度,也就是速度或者時間維度。

Garter表示,全球資訊量正在以59%以上的年增長率增長,而量是在管理資料、業務方面的顯著挑戰,IT領袖必須側重在資訊量、種類和速度上。

量:企業系統內部的資料量的增加是由交易量、其它傳統資料型別和新的資料型別引發的。過多的量是一個儲存的問題,但過多的資料也是一個大量分析的問題。

種類:IT領袖在將大量的交易資訊轉化為決策上一直存在困擾 – 現在有更多型別的資訊需要分析 – 主要來自社交媒體和移動(情景感知)。種類包括表格資料(資料庫)、分層資料、檔案、電子郵件、計量資料、視訊、靜態影像、音訊、股票行情資料、金融交易和其它更多種類。

速度:這涉及到資料流、結構化記錄的建立,以及訪問和交付的可用性。速度意味著正在被生成的資料有多快和資料必須被多快地處理以滿足需求。

雖然大資料是一個重大問題,Gartner分析師表示,真正的問題是讓大資料更有意義,在大資料裡面尋找模式幫助組織機構做出更好的商業決策。

諸子百家談如何定義”大資料”

儘管”Big Data”可以翻譯成大資料或者海量資料,但大資料和海量資料是有區別的。

定義一:大資料 = 海量資料 + 複雜型別的資料

Informatica中國區首席產品顧問但彬認為:”大資料”包含了”海量資料”的含義,而且在內容上超越了海量資料,簡而言之,”大資料”是”海量資料”+複雜型別的資料。

但彬進一步指出:大資料包括交易和互動資料集在內的所有資料集,其規模或複雜程度超出了常用技術按照合理的成本和時限捕捉、管理及處理這些資料集的能力。

大資料是由三項主要技術趨勢匯聚組成:

  • 海量交易資料:在從 ERP應用程式到資料倉儲應用程式的線上交易處理(OLTP)與分析系統中,傳統的關係資料以及非結構化和半結構化資訊仍在繼續增長。隨著企業將更多的資料和業務流程移向公共和私有云,這一局面變得更加複雜。
  • 海量互動資料:這一新生力量由源於 Facebook、Twitter、LinkedIn 及其它來源的社交媒體資料構成。它包括了呼叫詳細記錄(CDR)、裝置和感測器資訊、GPS和地理定位對映資料、通過管理檔案傳輸(Manage File Transfer)協議傳送的海量影像檔案、Web 文字和點選流資料、科學資訊、電子郵件等等。
  • 海量資料處理:大資料的湧現已經催生出了設計用於資料密集型處理的架構,例如具有開放原始碼、在商品硬體群中執行的 Apache Hadoop。對於企業來說,難題在於以具備成本效益的方式快速可靠地從 Hadoop 中存取資料。

定義二:大資料包括A、B、C三個要素

如何理解大資料?NetApp 大中華區總經理陳文認為,大資料意味著通過更快獲取資訊來使做事情的方式變得與眾不同,並因此實現突破。大資料被定義為大量資料(通常是非結構化的),它要求我們重新思考如何儲存、管理和恢復資料。那麼,多大才算大呢?考慮這個問題的一種方式就是,它是如此之大,以至於我們今天所使用的任何工具都無法處理它,因此,如何消化資料並把它轉化成有價值的洞見和資訊,這其中的關鍵就是轉變。

基於從客戶那裡瞭解的工作負載要求, NetApp所理解的大資料包括A、B、C三個要素:分析(Analytic),頻寬(Bandwidth)和內容(Content)。

1. 大分析(Big Analytics),幫助獲得洞見 – 指的是對巨大資料集進行實時分析的要求,它能帶來新的業務模式,更好的客戶服務,並實現更好的結果。

2. 高頻寬(Big Bandwidth),幫助走得更快 – 指的是處理極端高速的關鍵資料的要求。它支援快速有效地消化和處理大型資料集。

3. 大內容(Big Content),不丟失任何資訊- 指的是對於安全性要求極高的高可擴充套件的資料儲存,並能夠輕鬆實現恢復。它支援可管理的資訊內容儲存庫、而不只是存放過久的資料,並且能夠跨越不同的大陸板塊。

大資料是一股突破性的經濟和技術力量,它為 IT 支援引入了新的基礎架構。大資料解決方案消除了傳統的計算和儲存的侷限。藉助於不斷增長的私密和公開資料,一種劃時代的新商業模式正在興起,它有望為大資料客戶帶來新的實質性的收入增長點以及富於競爭力的優勢。

自:36大資料