在短短几年裡,大資料技術從炒作的概念變為新數字時代的核心破壞者。2014年,公司裡越來越多的大資料舉措從測試步入生產。2015年,大資料將在企業裡進一步推進,使用更多的用例(特別是實時用例),Hadoop分散式專家MapR的聯合創始人兼CEO John Schroeder說。

201505140301

Schroeder說:“今年,機構將覆蓋之前的初次批量實現,進行大資料實時部署。現有的行業領導者和那些後起之秀已經付出了巨大努力,它們通過將新的大資料平臺合併到‘動態’資料分析中來影響業務,這些實現將驅動行業的發展。”

Schroeder說五大發展將會主導2015。

1.資料敏捷性成為焦點

對於許多需求來說,遺留的資料庫和資料倉儲的處理過程過於緩慢和僵化,因此資料敏捷性是大資料技術發展的驅動力之一。在2015年,Schroeder認為,隨著機構將他們的注意力從捕獲和管理資料轉換到使用它們,資料敏捷性將會更加集中。

他說:“遺留的資料庫和資料倉儲如此昂貴,以至於需要DBA對資料進行全面綜合和結構化。前期的DBA成本推遲了對新資料來源的訪問,而隨著時間的推移,這剛性的結構也很難改變。最終的結果就是,遺留資料庫不夠敏捷,不能滿足今天多陣列織的需要。”

他補充說:“最初的資料專案集中在目標資料來源的儲存。機構將會把自己的注意力轉移到資料敏捷性上,而不是關心正在管理著多少資料。執行和分析資料的能力又是如何影響操作的?當使用者偏好、市場條件、競爭行為和操作狀態發生變化時,如何才能快速適應和響應?這些問題將會在2015年指引大資料的投資和規模。”

2.機構從資料湖泊轉移到資料處理平臺

從某種程度上來說,2014年是資料湖泊(或者資料中心)的一年。基於物件的儲存倉庫以其原生格式(無論是結構化的、非機構化的或半結構化的)儲存著原始資料,直到可以使用。資料湖泊有著強烈的價值主張,它們代表著一個可伸縮的基礎結構,這樣的結構經濟(降低了成本)又敏捷。

Schroeder認為,隨著處理資料的多計算和執行引擎就位,資料湖泊將會在2015年繼續發展。它不僅會更有效,它還會建立一個單點管理和一個單點安全。

“在2015年,隨著機構從批處理轉移到實時處理,將Hadoop、資料庫和基於檔案的引擎整合到他們的大規模處理平臺,資料湖泊將會有所發展”,他說。“換句話說,它並不是關於資料湖泊中支援大量查詢和報告的大規模儲存。2015年的大趨勢是,圍繞事件和資料的實時持續訪問和處理,以此來獲取穩定的狀態和及時採取行動。”

3.自助服務大資料成為主流

大資料工具和服務的進步意味著,在2015年,商業使用者和資料科學家訪問資料的瓶頸將逐漸緩解,Schroeder說。

2015年,IT將會擁抱自助服務大資料,允許商業使用者使用大資料自助服務,他說。“自助服務授權開發者、資料科學家和資料分析師直接控制對資料的探索。”

“之前,需要IT技術來建立集中的資料結構”,他補充道。“這是一種耗時和昂貴的做法。對於一些用例,Hadoop已經使得企業適應了‘結構準備好’。高階一點的機構將會轉移到執行上的資料繫結,遠離中心結構,以此來滿足持續的需求。自助服務加快機構利用新資料來源以及回應機會和威脅。”

4.Hadoop供應商整合:新商業模式的發展

早在2013年,因特爾引入了它自己的Hadoop版本,聲稱這個版本將會與原版有所不同,它採用一種增強的方法,將Hadoop直接置入到因特爾的機器中。但是一年後,因特爾放棄了它自己的版本,然後重磅推出Hadoop發行版供應商Cloudera。

當時,因特爾注意到,客戶們都在觀望Hadoop市場如何開啟。Hadoop的選擇實在是太多了。Schroeder相信,Hadoop供應商的整合在2015年將會繼續,而失敗者將會停止它們的發行版,將注意力轉移到其它地方。

“現在,我們已經貢獻開原始碼20年了,它為市場提供了巨大的價值”,Schroeder說。“技術處於成熟階段。技術生命週期始於創新和高度差異化產品的創造,止於產品最終商業化。[Edgar F.] Codd於1969年使用創新而建立了關聯式資料庫概念,1986年也導致了Oracle IPO,而起始於1995年的第一個MySQL版本。所以歷史上,資料庫平臺技術成熟之前,為了看到商業化,它花了26年時間的創新。”

“在技術成熟週期中,Hadoop是比較早的,自Google釋出萌芽的MapReduce白皮書起,僅僅只有十年的時間”,他補充道。“在初級概念釋出僅10年後,Hadoop在全球被採用,超越以往任何其它資料平臺。Hadoop正在創新階段,所以供應商誤採用‘Red Hat for Hadoop’策略已經在市場上出現了,尤其是因特爾和最近的EMC。”

Schroeder相信,2015將會見到一個嶄新的、更微妙的開源軟體的發展,它們會結合深度創新和社群開發。

“開源社群對於建立標準和共識是至關重要的”,他說。“競爭是催化劑,它將Hadoop從最初的批分析處理器轉換成一個全功能資料平臺。”

5.企業架構師不再炒作大資料

2015年將會看到,企業架構師會成為焦點,因他們對Hadoop技術的深入理解,得到定義更好和更成熟的大資料應用需求說明,包括像高可用性和業務連續性等元素。

“在資料中心中,隨著機構快速從試驗轉移到實際應用,企業架構師將前臺和中心轉移到實際應用”,Schroeder說。“IT領導在決定適應SLA的基礎架構、提供高可用性、業務連續性和適應關鍵業務需求上就很重要了。在2014年,圍繞Hadoop蓬勃發展的生態系統,擁有大量的應用、工具和元件。在2015年,市場將集中在將Hadoop整合到資料中心,並交付業務結果所需的跨平臺差異和架構上。”