好程式設計師大資料培訓分享大資料技術與Hadoop 之間的關係，在現如今，隨著面對當前企業級使用者對於自建資料中心興趣的不斷擴大，以及大資料正在以驚人的速度增長几乎觸及各行各業，而大資料是一種新興的資料探勘技術，它正在讓資料處理和分析變得更便宜更快速。大資料技術一旦進入超級計算時代，很快便可應用於普通企業，在遍地開花的過程中，它將改變許多行業業務經營的模式。但是很多人對大資料存在誤解，下面就來縷一縷大資料與Hadoop 之間的關係。

　　我們都聽過這個預測：到2020 年，電子資料儲存量將在 2009 年的基礎上增加 44 倍，達到 35 萬億 GB 。根據 IDC 資料顯示，截止到 2010 年，這個數字已經達到了 120 萬 PB ，或 1.2ZB 。如果把所有這些資料都存入 DVD 光碟，光碟高度將等同於從地球到月球的一個來回也就是大約 480,000 英里。

　　走進大資料，一種新興的資料探勘技術，它正在讓資料處理和分析變得更便宜更快速。大資料技術一旦進入超級計算時代，很快便可應用於普通企業，在遍地開花的過程中，它將改變許多行業業務經營的模式。在計算機世界裡，大資料被定義為一種使用非傳統的資料過濾工具，對大量有序或無序資料集合進行的挖掘過程，它包括但不僅限於分散式計算(Hadoop) 。

　　大資料已經站在了資料儲存宣傳的風口浪尖，也存在著大量不確定因素，這點上非常像“雲”。我們請教了一些分析人士和大資料愛好者，請他們解釋一下大資料究竟是什麼，以及它對於未來資料儲存的意義。

　　大資料走進歷史舞臺

　　適用於企業的大資料已經出現，這在部分程度上要歸功於計算能耗的降低以及系統已具備執行多重處理的能力這樣一個事實。而且隨著主儲存器成本的不斷下降，和過去相比，公司可以將更多的資料存到儲存器中。並且，將多臺計算機連到伺服器叢集也變得更容易了。這三個變化加在一起成就了大資料，IDC 資料庫管理分析師 CarlOlofson 如是說。

　　大資料技術還沒有在有大型資料倉儲的公司中得到廣泛普及。IDC 認為，想讓大資料技術得到認可，首先技術本身一定要足夠便宜，然後，必須滿足 IBM 稱之為 3V 標準中的 2V ，即：型別 (variety) ，量 (volume) 和速度 (velocity) 。

　　對於大資料是什麼以及大資料能幹什麼存在很多誤會。下面就是有關大資料的三個誤解：

　　 1 、關聯式資料庫無法大幅增容，因此不能被認為是大資料技術 ( 不對 )

　　 2 、無需考慮工作負載或具體使用情況， Hadoop 或以此類推的任何 MapReduce 都是大資料的最佳選擇。 ( 也不對 )

　　 3 、圖解式管理系統時代已經結束。圖解的發展只會成為大資料應用的攔路虎。 ( 可笑的錯誤 )

　　大資料與開源的關係

　　 “很多人認為 Hadoop 和大資料基本上是一個意思。這是錯誤的，” Olofson 說。並解釋道： Teradata,MySQL 和“智慧聚合技術”的某些安裝啟用都用不到 Hadoop ，但它們也可以被認為是大資料。

　　 Hadoop 是一種用於大資料開發工程師的應用程式，因為它是建立在 MapReduce 基礎上的，所以引起了極大的關注。 (MapReduce 是一種用於超級計算的普通方法，之後經過了主要由 Google 資助的一個專案的最佳化，因此被簡化並變得考究了） Hadoop 是幾個緊密關聯的 Apache 專案組成的混合體的主要安裝啟用程式，其中包括 MapReduce 環境中的 HBase 資料庫。

大資料技術與Hadoop之間的關係

相關文章