Hadoop沒有消亡,它是大資料的未來

微胖發表於2017-04-28

有人認為 Hadoop 正在失敗,但矽谷資料管理公司 Hortonworks 的總經理 Vamsi K. Chemitiganti 並不這麼看,為了反駁此前一篇文章《為什麼 Hadoop 正在消亡?(Why Hadoop is Failing)》的觀點,他在自己的部落格上寫了一篇論述自己看法的文章,他認為達爾文式的開源生態系統正在確保 Hadoop 成為穩固和成熟的技術平臺。機器之心對這篇反駁文章進行了編譯介紹,但本文內容並不代表機器之心的觀點。


「女士,那麼剛出生的孩子能幹什麼?」——邁克爾·法拉第,在 18 世紀被問及新發明的電有什麼用的時候。


為什麼 Hadoop 正在發展壯大


過去兩年來,我一直致力於大資料方面的研究,並在這段時間裡經歷了令人感到震撼的變革,因為我一直在全球各地為銀行業的領導者們提供諮詢服務。


這也是為什麼當近期 KDnuggets 出現了一篇挑釁性質的《為什麼 Hadoop 正在消亡》時,我必須站出來反對了。在那篇文章中,作者的討論具有建設性,但問題在於其討論基於一些毫無根據的假設。在深入研究之前,我們要考慮其中的背景。


公司業務中數字架構的出現意味著公司能夠與全球客戶/消費者/病人持續地線上互動。其目的並不僅僅是為了提供友好的視覺化內容,而是為了提供跨渠道,多型別的個性化服務。移動應用首先迫使企業將服務形式升級為與消費者在多渠道中展開溝通。例如銀行業,所有銀行現在都涵蓋了四到五種服務方式:移動 app、電子銀行、呼叫中心、快捷銀行等。醫療保健業有希望成為下一個改變面貌的行業,護理人員已經開始採用 iPad 來協助診斷,儲存和處理患者的藥物和疾病資料。大資料技術的發展是為了克服以往方法(RDBMS 和 EDW)的侷限性,解決在數字應用堆疊中資料架構和分析的挑戰。


這些挑戰包括:

  • 資料體量擴大的挑戰。

  • 公司資料種類的飛速膨脹。

  • Hadoop 顯然也有自己的限制——例如支援低延遲 BI(Business Intelligence,商業智慧)查詢的能力。但是 Hadoop 之前的方法顯然有更多的缺陷,它們無法處理和管理大量資料,從而為數字架構的業務帶來了兩大挑戰。第一個挑戰是在企業資料流架構中實時提供洞見;第二個挑戰是進行進一步分析的能力:快速進行預測分析和深度學習(經常需要每秒處理百萬條資訊),從而能夠跨領域解決複雜問題。Hadoop 是唯一能讓這些挑戰化為有效商業機會的方式。

達爾文式的開源生態系統正在確保 Hadoop 成為穩固和成熟的技術平臺。


目前的絕大多數 Hadoop 大資料專案(超過 25 個)都依靠開源社群在 Apache 生態系統中孵化、開發和維護。開源社群本質上是達爾文式的。它專注於程式碼質量和行業應用,依賴於路線圖和提交者的正確性,如果一個專案缺乏這些,那它會很快走進墳墓。換句話說,生態系統中沒有落後者的位置。


讓我們看看那篇文章中作者的主要假設吧。


假設 1:Hadoop 採用不再增長,最多持平


我日常工作中的最重要的部分是與多個客戶合作探討他們的業務計劃以及尋找應用技術來解決這些複雜難題的方法。我可以證明最大企業對 Hadoop 的採用絕對沒有停滯不前。儘管我的觀點肯定是道聽途說,而且不是來自於企業內部的內幕,但在銀行業、電信業、製造業和保險業,Hadoop 的採用卻實實在在地在飛漲。在早期就與領先的供應商合作的企業已經或多或少找到了將這項技術應用於它們的業務難題的好方法。採用 Hadoop 的模式正在成熟,而且它們也正在意識到其中巨大的商業價值。一家領先的供應商 Hortonworks 在實現 1 億美元年收入的道路上比其它任何科技創業公司都跑得快——這是該領域潛力的有力證明。Cloudera 剛剛已經上市。在見證著這樣的增長的同時,我們也看到領先的 EDW 供應商的收入和股價卻略有下跌。我預計,未來 5-7 年內就會出現第一家年收入達到 10 億美元的大資料「創業公司」,與備受尊敬的開源先驅 Red Hat 相比還多少快一點。至少,Hadoop 專案能幫助企業從昂貴和不靈活的企業資料倉儲專案上節省成百上千萬美元。幾乎所有組織都已經開始部署 Hadoop,以作為它們的企業登陸區(ELZ:Enterprise Landing Zone),從而增強它們的 EDW。


假設 2:使用 Hadoop 創造的專案的商業價值不明顯


該作者在這方面還有點道理,但讓我解釋一下為什麼這是組織機構所面臨的難題,而實際上並不是任何技術堆疊(中介軟體或雲或大資料)的過錯。這個難題在於:尋找大資料專案的商業價值往往是一個精細活,涉及到整個複雜的組織結構。IT 部分當然可以將 POC(概念驗證)作為一門科學或一項「一次性簡歷構建」專案而開始,但其業務線需要從一開始就參與進來,比其它任務技術類別都早。大資料並不是關於儲存大量資料的基礎設施的施工,而是關於如何在收集和策劃的資料上創造業務分析。不管這些分析是簡單而老套的商業智慧(BI),還是資料科學導向的,它們都依賴於一個組織本身的文化和創新。


組織機構不僅在使用大資料來解決已有的業務難題(銷售更多商品、檢測欺詐、報告風險等),而且也在使用大資料分析得到的見解來快速實驗新的業務模型。聰明的 CDO(首席資料官)應該知道如何擁有這種技術、創造合適的內部成本核算模型並將已有的業務線(LOB)專案納入到資料湖(data lake)。


每個 CDO 在一開始時就要提出以下兩個問題:


  • 整個組織將要具備怎樣的業務能力?

  • 哪方面的數字轉換可以通過大資料達到最優?


假設 3:對於 PB 級的大規模資料,大資料是唯一可行的技術解決方案


該作者寫道:「如果你的企業沒有巨量資料的問題,你真的用不著 Hadoop,所以數以百計的企業都對他們無用的 2 到 10 TB 的 Hadoop 叢集感到非常失望——在這種規模上,Hadoop 技術沒有任何優勢。」


這並不能從實際情況上觀察到,因為以下三個原因:


首先,大多數 TB 級的專案都是租用的更大規模的叢集。資料湖的真正價值是在跨組織的資料庫上構建,而在此之前,這麼做需要高昂的成本,或者難度太大。一旦你將所有資料都集中到了一處,那麼你就可以將它們混合起來,以一種前所未有的方式對其進行分析。


其次,正如我將在下面說的那樣,許多玩家正在使用大資料來在操作 TB 級的資料的同時獲得關鍵的「速度」優勢。


第三,我推薦每一個客戶從「小」開始,並將資料湖用作企業登陸區——用於企業常規業務運營所產生的資料。Hadoop 叢集不僅可被用作廉價的儲存,但也可用於執行一些重複但計算密集型的資料處理任務(資料連線、排序、分割、binning 等等),這能將企業資料倉儲(EDW)從一系列繁重的工作中解脫出來。


假設 4:很難找到 Hadoop 人才


作者的話——「儘管 57% 的人認為,技術鴻溝是主要原因,這個比例也不會一夜之間發生改變。這正好與 Indeed 的發現吻合:他們追蹤了『Hadoop 測試』崗位情況,2014 年中期,招聘廣告百分比最高為 0.061%,但是,2016 年增至 0.087%,18 個月裡增加了 43%。這些情況可能預示著,採用 Hadoop 並沒有下降到那些傳聞臆想所暗示的程度,不過,公司也很容易發現他們很難從公司當前團隊的 Hadoop 那裡實現價值,他們需要更好的專業技術人才。」


這個技術鴻溝是確實存在的且主要存在這三個領域——資料科學家、資料工程師以及 Hadoop 管理員。不過,這並不是 Hadoop 獨有的難題,實際上每種新技術都會有這種煩惱。公司要通過增強內部員工的的技能、與全球系統整合商(GSI)、與學術界合作來彌合這個鴻溝。實際上,從事大資料專案的前景會吸引人才加入組織。


大型組織該如何啟動自己的大資料之旅?


避免跌進「大資料並不帶來價值」這個坑的最佳措施是什麼?


  • 以最高階別推進大資料以及大資料商業和技術應用的討論。大資料需要在最高階別上成為組織 DNA 的一部分,需要和其他驅動產業的主要技術一起加以討論——比如雲技術、移動技術、開發運營以及社交、API 等。

  • 打造或者組建一支首席資料官領導下的團隊。團隊可以是現實的,也可是虛擬的,但都需要將組織策略納入考慮。

  • 建立一個卓越中心(COE:Center of Excellence)或者類似這樣的聯合渠道,在這裡,中心團隊可以就這些專案與不同的業務線合作。

  • 作為 COE 的一部分,還要制定一個採納最新技術的流程。

  • 合適的監管和專案監督

  • 找出那些能驅動大資料專案的關鍵業務標準,包括對期望增長加速、成本削減、風險管理以及實現競爭優勢的詳細分析。

  • 讓業務線參與進來,以迭代的方式發展這些能力。幾乎所有成功的大資料專案都是以一種開發運營的方式得以推進的。


總結


大資料生態系統和 Hadoop 技術為全球垂直領域的組織提供了一個成熟、穩定和功能豐富的平臺來實施複雜的數字化專案。不過,技術的成熟度僅僅是一個必要因素。就旨在創新的思維模式而言,組織能力才是驅動內部變革的關鍵力量。因此,在商業領導、IT 團隊以及內部領域專家和管理各個方面,孕育學習的思維模式也很關鍵。對於大資料來說,普世座右銘「一分耕耘一分收穫」更加真實。儘管很容易將某個專案的失敗歸咎給一項技術、某個公司或者某個技術不佳的人員,但是,你應該與安於現狀的思維模式作鬥爭。確認競爭沒有停下來時,你才能安心。


原文連結:http://www.kdnuggets.com/2017/04/hadoop-not-failing-future-data.html

相關文章