“大資料”與“海量資料”的區別

tianlianchao1982發表於2011-11-11

很多年前，業界就在討論一個話題：如何應對海量資料？特別是一些需要儲存大量使用者資料的行業，金融、電信、保險等熱門行業。

　　很多年前，業界就在討論一個話題：如何應對海量資料？特別是一些需要儲存大量使用者資料的行業，金融、電信、保險等熱門行業。使用者幾乎在一天的每個小時，都有可能產生大量資料，這些行業的儲存裝置，必須要將期間產生的資料一絲不苟地記錄下來。隨著資料量的迅速增加，很多行業使用者開始想辦法變“數”為寶，從海量資料中挖掘有價值的資訊。

　　如果僅僅是海量的結構性資料，那麼解決的辦法就比較的單一，使用者通過購買更多的儲存裝置，提高儲存裝置的效率等解決此類問題。然而，當人們發現資料庫中的資料可以分為三種型別：結構性資料、非結構性資料以及半結構性資料等複雜情況時，問題似乎就沒有那麼簡單了。

　　大資料洶湧來襲

　　當型別複雜的資料洶湧襲來，那麼對於使用者IT系統的衝擊又會是另外一種處理方式。很多業內專家和第三方調查機構通過一些市場調查資料發現，大資料時代即將到來。有調查發現，這些複雜資料中有85%的資料屬於廣泛存在於社交網路、物聯網、電子商務等之中的非結構化資料。這些非結構化資料的產生往往伴隨著社交網路、移動計算和感測器等新的渠道和技術的不斷湧現和應用。

　　如今大資料的概念也存在著很多的炒作和大量的不確定性。為此，編者詳細向一些業內專家詳細瞭解有關方面的問題，請他們談一談，大資料是什麼和不是什麼，以及如何應對大資料等問題，將系列文章的形式與網友見面。

　　有人將多TB資料集也稱作"大資料"。據市場研究公司IDC統計，資料使用預計將增長44倍，全球資料使用量將達到大約35.2ZB(1ZB = 10億TB)。然而，單個資料集的檔案尺寸也將增加，導致對更大處理能力的需求以便分析和理解這些資料集。

　　EMC曾經表示，它的1000多個客戶在其陣列中使用1PB(千兆兆)以上的資料資料，這個數字到2020年將增長到10萬。一些客戶在一兩年內還將開始使用數千倍多的資料，1EB(1艾位元組 = 10億GB)或者更多的資料。

　　對大企業而言，大資料的興起部分是因為計算能力可用更低的成本獲得，且各類系統如今已能夠執行多工處理。其次，記憶體的成本也在直線下降，企業可以在記憶體中處理比以往更多的資料，另外是把計算機聚合成伺服器叢集越來越簡單。IDC認為，這三大因素的結合便催生了大資料。同時，IDC還表示，某項技術要想成為大資料技術，首先必須是成本可承受的，其次是必須滿足IBM所描述的三個"V"判據中的兩個：多樣性(variety)、體量(volume)和速度(velocity)。

　　多樣性是指，資料應包含結構化的和非結構化的資料。

　　體量是指聚合在一起供分析的資料量必須是非常龐大的。

　　而速度則是指資料處理的速度必須很快。

　　大資料"並非總是說有數百個TB才算得上。根據實際使用情況，有時候數百個GB的資料也可稱為大資料，這主要要看它的第三個維度，也就是速度或者時間維度。

　　Garter表示，全球資訊量正在以59%以上的年增長率增長，而量是在管理資料、業務方面的顯著挑戰，IT領袖必須側重在資訊量、種類和速度上。

　　量：企業系統內部的資料量的增加是由交易量、其它傳統資料型別和新的資料型別引發的。過多的量是一個儲存的問題，但過多的資料也是一個大量分析的問題。

　　種類：IT領袖在將大量的交易資訊轉化為決策上一直存在困擾 - 現在有更多型別的資訊需要分析 - 主要來自社交媒體和移動(情景感知)。種類包括表格資料(資料庫)、分層資料、檔案、電子郵件、計量資料、視訊、靜態影象、音訊、股票行情資料、金融交易和其它更多種類。

　　速度：這涉及到資料流、結構化記錄的建立，以及訪問和交付的可用性。速度意味著正在被生成的資料有多快和資料必須被多快地處理以滿足需求。

　　雖然大資料是一個重大問題，Gartner分析師表示，真正的問題是讓大資料更有意義，在大資料裡面尋找模式幫助組織機構做出更好的商業決策。

資料倉儲與大資料的區別
2024-08-09
大資料
淺談大資料、資料分析、資料探勘的區別！
2020-12-19
大資料
我的《海量資料處理與大資料技術實戰》出版啦！
2020-08-28
大資料
圖解大資料 | 海量資料庫查詢-Hive與HBase詳解
2022-03-08
圖解大資料資料庫Hive
資料資產管理與資料治理什麼區別？
2024-02-29
資料探勘與資料分析的主要區別是什麼
2024-01-04
雲端計算和大資料的區別與關係
2020-06-17
大資料
AI智慧與大資料的本質區別是什麼？
2019-07-19
AI大資料
資料庫中where與having的區別
2018-10-25
資料庫
資料倉儲、資料湖與湖倉一體的區別與聯絡
2024-02-20
碼教授告訴你大資料與人工智慧的區別
2018-08-20
大資料人工智慧
資料分析師、資料科學家、大資料專家三個職位的區別
2018-06-11
資料科學大資料
大資料分析與機器學習之間的區別與聯絡
2020-09-23
大資料機器學習
區別值型別資料和引用型別資料
2018-05-30
型別
資料網格與Data Fabric的區別 - thenewstack
2022-01-07
海量資料處理
2018-03-08
大資料與資訊保安（六）天網系統與大資料大資料
2018-10-21
大資料
【clickhouse專欄】資料庫、資料倉儲之間的區別與聯絡
2022-06-06
資料庫
DAMA認證|一文淺析資料治理與資料管理的區別
2021-09-24
Java中的基本資料型別與引用資料型別
2021-01-21
Java資料型別
海量資料處理2
2018-08-28
資料化與資訊化的邏輯，有本質的區別
2022-06-09
海量資料的併發處理
2018-03-14
原生分散式資料庫與子資料庫子表中介軟體的區別
2022-11-28
分散式資料庫
大資料到底怎麼學：資料科學概論與大資料學習誤區
2018-05-04
大資料資料科學
BI、資料倉儲和資料分析之間的區別
2020-09-25
資料庫和資料倉儲的區別在哪兒？CN
2022-03-21
資料庫
大樓的基石資料型別變數與常量
2018-06-14
資料型別變數
雲審計與大資料審計：區別、優勢與應用場景
2024-03-14
大資料
【大資料】大資料企業策略與法則
2018-03-07
大資料
在資料庫的查詢與更新中，CHARINDEX與instr的區別？
2024-04-27
資料庫Index
Java 支援的資料型別與 MySQL 支援的資料型別對比
2024-07-23
Java資料型別MySql
.NET與大資料
2023-02-03
大資料
資料庫型別區分
2020-10-05
資料庫型別
【IT老齊074】海量資料大頁碼MySQL查詢
2024-03-26
MySql
Greenplum海量資料，大寬錶行存VS列存
2018-05-06
大資料與牆的故事
2019-02-16
大資料
區塊鏈代表的資料庫和傳統資料庫有何區別
2018-05-30
區塊鏈資料庫
資料庫：drop、truncate、delete的區別
2020-09-19
資料庫delete

“大資料”與“海量資料”的區別

相關文章