CTO視角解讀:國外企業選擇Hadoop時到底在猶豫什麼?

趙鈺瑩發表於2018-06-20

  隨著“Hadoop是否已失寵”的選題調研程式過半,國內外企業以及廠商的觀點確實存在很大分歧,有人認為是國外Hadoop廠商所提供的服務以及架構不如國內廠商完善,也有觀點表明國外大部分企業的資料量根本達不到使用Hadoop的層級,因此對Hadoop比較冷漠。那麼,事實到底是什麼樣的呢?

CIO視角:國外企業部署Hadoop猶豫什麼?

  本期嘉賓:Ness SES的CTO Moshe Kranc,Silicon Valley Data Science的CTO John Akred,戴爾EMC首席解決方案架構師Boni Bruno以及多位 CIOReview嘉賓。

  開源僅開啟了價格大門:Hadoop搭建依舊困難重重!

  我們一直在強調Hadoop的靈活性、可擴充套件性,但卻忘了Hadoop誕生之初就是為了解決海量資料處理問題的。Hadoop框架最核心的就是HDFS和MapReduce,一個解決了海量資料儲存,一個解決了海量資料計算。根據CIOReview嘉賓的觀點,在國外企業看來,Hadoop開源雖然降低了購買成本,但整個搭建部署成本並不低且要結合企業自身的資料量規模。

  Facebook、YouTube、雅虎等財富排名在前50的企業基本都部署了Hadoop,但是有一些情況是不適合使用Hadoop的,比如:

  1、實時資料處理分析場景

  Hadoop最擅長且最專注的就是批處理,對於實時資料處理分析的需求,Hadoop完整分析的響應時間會很久。Dstillery首席科學家Claudia Perlich表示,如果需要在30毫秒內查詢擁有3億人的資料庫中的某些資訊,Hadoop無法做到快速響應這一需求。

  2、小型資料集處理

  對於小型資料集的處理需求,現在有很多可用的工具,比如Excel,RDBMS等,使用Hadoop是十分不明智的,這會浪費掉大量資源,導致整個使用成本非常高,畢竟Hadoop是為了解決海量資料處理問題而誕生的。

  3、取代現有基礎設施

  Hadoop為大資料領域提供了智慧儲存解決方案,但是如果你抱著取代現有基礎設施的念頭,那還是不要部署Hadoop了,將Hadoop視為可替代現有資料分析基礎架構的想法並不明智。通常,企業會選擇與資料倉儲結合使用以獲得最大收益。

  4、技術門檻

  儘管Hadoop開源且擁有相當活躍和龐大的社群,但對企業而言,技術門檻這關並不是好邁的。Hadoop的MapReduce和HDFS固然好,但是搭建這些架構是需要具備相當專業的技術知識和實力的。近幾年,大資料相關專業人才更是身價倍增,企業如果想要招聘相關技術專家,需要付出相當高的人力成本。為了保證企業海量資料安全平穩得執行,企業還需要花費成本建立運維和資料安全團隊,這部分成本是沒辦法忽略的。

  5、機器學習能力欠缺

  AI時代,這一缺點變得非常致命。Ness SES的CTO Moshe Kranc認為,Hadoop已經展示出了其年代感,不管是Hadoop的HDFS、MapReduce還是它的機器學習元件Mahout。在這一方面,Spark似乎表現更加優異,Spark不斷從Hadoop的經歷中學習,具有更通用和可擴充套件的程式設計模型,易於分析且擁有強大的圖形資料庫(Graphx)和全功能資料科學庫(MLib)。當然,如果企業自己具備生態整合的能力,那麼這個問題可能就不存在了。

CIO視角:國外企業部署Hadoop猶豫什麼?
▲Ness SES的CTO Moshe Kranc

  如果只學會了用Hadoop儲存大量資料,那麼毫無意義!

  對國外企業而言,糟糕的使用者體驗很可能是因為並沒有發揮出Hadoop的優勢,Hadoop這樣的分散式系統在海量資料處理方面的優勢毋庸置疑,但是為什麼很多企業並不看好它呢?

CIO視角:國外企業部署Hadoop猶豫什麼?
▲Silicon Valley Data Science的CTO John Akred

  Silicon Valley Data Science的CTO John Akred表示,在國外,無論是醫療保健、製造業還是金融領域,公司在部署Hadoop這樣的分散式系統時一般會選擇從初始用例也就是簡單用例開始,以便了解整個Hadoop的工作流程。公司可能會開始嘗試將部分資料收集並執行到Hadoop之上,透過簡單的測試證明,確實可以使用Hadoop來儲存大量非結構化資料,到這裡所有步驟似乎都沒有問題,但這真的對業務產生價值了嗎?如果企業並沒有透過部署Hadoop而對業務產生價值,那麼這一決策的意義是什麼呢?

  其次,很多企業會低估Hadoop的操作複雜性,無法清晰認知習慣了使用IBM Db2和Oracle等傳統資料技術的人在使用Hadoop方面會面臨多少轉型問題。

  戴爾EMC的Boni Bruno:推動Hadoop建設的三大關鍵因素!

  通篇,我們不難發現,國外大部分企業之所以會拒絕部署Hadoop,一部分原因是自身資料量尚未達到海量規模,一部分是部署和使用方式有困難。Boni Bruno表示,戴爾EMC已經幫助不少企業成功部署了Hadoop大資料分析解決方案,其不少客戶對於Hadoop還是極其關心的,Boni Bruno認為企業採用Hadoop有三大關鍵驅動因素:

CIO視角:國外企業部署Hadoop猶豫什麼?
▲戴爾EMC首席解決方案架構師Boni Bruno

  1、企業資料倉儲最佳化

  隨著資料量的增加,許多CIO會發現企業資料倉儲(EDW)的容量正在逐漸耗盡,導致資料載入處理時間過長,SLA得不到滿足,最終影響關鍵業務的智慧交付。透過將資源密集型ETL流程遷移到Hadoop,CIO可以在其EDW上釋放寶貴的CPU週期並提高效能。透過將冷資料遷移至Hadoop,可以節省資金並釋放容量降低成本。事實上,與EDW系統中不可用的其他資料結合時,可以挖掘Hadoop中的冷資料以獲得額外的業務洞察。使用外部系統日誌、社交媒體、安全資料等分析冷資料,使用Hadoop最佳化EDW,可為CIO降低成本,改進報告並支援更多型別的非結構化資料。

  2、流式分析和物聯網

  以Hortonworks Data Flow或IBM Streams為例,CIO可根據需要向Hadoop叢集新增和調整資料來源,跟蹤和審計資料路徑,並使用可用頻寬動態調整資料管道。關鍵是可以探索、最佳化和變換資料,比如支付跟蹤、定價、消費者反饋、收縮分析、客戶行為等,從而最佳化整個供應鏈、客戶支援、庫存控制、供應商記分卡等。轉變業務模式,主動配置人員,改進目標供應,並使用預測分析增強各種其他業務流程。

  3、安全分析和威脅檢測

  Hadoop的安全分析和威脅檢測用例日益增長。在Netflow流、日誌流、資料流和儲存資料上使用機器學習演算法和資料分析,公司可以識別複雜的威脅載體並主動修復攻擊。從欺詐檢測到資料竊取,Hadoop提供了一個完整的平臺,可處理全套遙測資料,實現高階關聯併為先期威脅提供單一檢視。

  以上這些國外企業在搭建Hadoop時遇到的問題也側面證實了Gartner“Hadoop即將在到達生產成熟期之前衰落”的結論,因為整個報告的調查主體相對來說更偏向於國外企業,這些企業對Hadoop的態度直接影響了Gartner的結論,而上述這些問題放在國內的大資料環境又會發生很多變化,這也讓國內不少企業無法相信Hadoop失寵言論。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2156397/,如需轉載,請註明出處,否則將追究法律責任。

相關文章