Hadoop是由英雄們創造的開源傳奇,然而傳奇經常還伴隨著一些流言——這些流言可能會導致IT高管們帶著樂觀的心態去制定策略。

Hadoop 2.0

 

資料體積和資料使用在以驚人的速度增長著,這一點從分析師的分析中不難獲得——IDC今年在資料儲存上的  增長速度將達到53.4%,AT&T聲稱  無線資料的流量在過去的5年內增長200倍,如果你著眼自己通訊渠道的話,將毫無疑問的發現網際網路內容、電子郵件、應用通知、社交訊息以及每天自動接收的訊息都在顯著的增長。這也是為什麼  從McKinsey到Facebook再到Walmart都重點聚焦於大資料。

就像我們看到的90年代與2000年代的網際網路泡沫,大資料同樣會導致一些公司做出糟糕的設想和決策。

Hadoop毫無疑問是公司為了解決大資料需求的主要投資領域之一,而類似Facebook這些在大體積資料處理上有所建樹的公司都公開的吹捧過在Hadoop上取得的成功,同樣初入大資料領域的公司也必先著眼這些成功的典型。Adam Bloom的一個MIT(麻省理工學院)電腦科學校友曾對他說:“when all you have is a hammer, everything looks like a nail。”通過Hadoop的炒作,我們可以避免  功能固著(functional fixedness)這種認知偏差。

Hadoop是一個多維的解決方案,可以通過不同的方式進行部署和使用。下面就看一下公司在開始Hadoop專案之前必須瞭解的一些關於Hadoop和大資料的預先構想的錯誤理念:

1.大資料只關係到體積

在體積之外,許多工業先鋒還經常提到  variety(多樣)、variability(可變)、velocity(速度)和value(價值)。撇開所有單詞都押頭韻,關鍵點在於大資料並不是體積上的增長——它正在向著實時分析、結構化和非結構化來源方向發展,並被用於嘗試和制定更好的決策。

綜上所述,不是隻有分析大體積資料才會獲得價值。舉個例子,超時限的儲存和分析1PB的資料的價值可能比不上實時分析1GB的資料。從工具集上考慮,你可能需要一個記憶體資料網路進行實時的分析,從新鮮的資料上獲得價值,而不是去解剖過時的資料獲得價值。

2.傳統SQL不可以在Hadoop上使用

當Facebook、Twitter、Yahoo!在Hadoop上豪賭時,他們同樣知道HDFS和MapReduce受限於處理類似SQL語言的能力,這也是最終得以孵化的原因。基於全球上大量的資料都是通過SQL來管理,一些公司和專案都在Hadoop和SQL的相容上狠下功夫。

3.取代大型機!Hadoop是唯一的新IT資料平臺

在IT投資組合裡有很多一直長期存在的投資,而大型機就是這麼一個例子,與ERP、CRM和SCM這些系統一樣演變至今。而如果大型機不想被公司或者架構遺棄,它就必須展示在現有投資環境中的價值。而VMware的許多客戶在使用大型機上都遇到了速度、規模和開銷的問題,但是並不是沒有途徑去解決這些問題,比如像vFabric SQLFire這樣的記憶體大資料網路就可以被嵌入或者使用分散式快取途徑去解決類似佇列的高速攝取、促進大型機的批處理或實時分析報告這些問題。

4.虛擬化會導致效能下降

Hadoop最初的設計只是在實體伺服器上執行,然而隨著越來越多機構的採用,許多公司都希望它能作為資料中心服務在雲中執行。為什麼這麼多的公司都希望虛擬化Hadoop?

首先要考慮管理基礎設施的擴充套件性,VMware快速的認識到擴充套件計算資源,比如虛擬Hadoop節點,當資料和計算分開時會對效能有所幫助,否則如果你關閉某個Hadoop節點將丟失上面的所有資料或者新增一個沒有資料的空節點。而鑑於這個原因,許多來自MapR、Hortonworks、Cloudera和Greenplum的專業Hadoop發行版都支援Project Serengeti和Hadoop Virtualization Extensions(HVE)。

5.Hadoop只可以在資料中心執行

首先,存在SaaS雲服務解決方案。許多雲服務允許你雲端執行Hadoop、SQL,這無疑可以幫助你省下資料中心建造投資的時間和金錢。對於一個公有云執行時,Java開發者可以從Spring Data for Hadoop以及一些其它的GitHub中的用例獲益。

6.Hadoop對虛擬化毫無經濟價值

Hadoop通常解釋在一堆商用伺服器上執行,這樣就會有人認為新增一個虛擬層在帶來額外支出的同時並不會有額外的價值收益。用這個觀點看是存在缺陷的,你並沒有考慮到資料和資料分析事實上都是動態的。想成為一個利用Hadoop能量去成長、創新及創造效率的公司,你必須改變資料的來源、分析的速度等等。

虛擬化基礎設施同樣可以減少物理硬體的封裝,讓CAPEX直接等於純粹的商用硬體,而通過自動以及更搞笑的利用共享基礎設施同樣可以減少OPEX(運營成本)。

7.Hadoop不可以在SAN或NAS上執行

Hadoop在本地磁碟上執行,對於中小型叢集它同樣可以在一個共享的SAN環境下執行良好。而高頻寬比如10GB Ethernet、PoE以及iSCSI對效能同樣有很好的支援。

總結

宣傳亦或是炒作只能作為接受新事物的參考,在做決策之前必須進行深入的瞭解和分析。被流言所迷惑而做出錯誤的決策,必然會讓投資陷入危險的境地。