CTO視角解讀:國外企業選擇Hadoop時到底在猶豫什麼?
隨著“Hadoop是否已失寵”的選題調研程式過半,國內外企業以及廠商的觀點確實存在很大分歧,有人認為是國外Hadoop廠商所提供的服務以及架構不如國內廠商完善,也有觀點表明國外大部分企業的資料量根本達不到使用Hadoop的層級,因此對Hadoop比較冷漠。那麼,事實到底是什麼樣的呢?
本期嘉賓:Ness SES的CTO Moshe Kranc,Silicon Valley Data Science的CTO John Akred,戴爾EMC首席解決方案架構師Boni Bruno以及多位 CIOReview嘉賓。
開源僅開啟了價格大門:Hadoop搭建依舊困難重重!
我們一直在強調Hadoop的靈活性、可擴充套件性,但卻忘了Hadoop誕生之初就是為了解決海量資料處理問題的。Hadoop框架最核心的就是HDFS和MapReduce,一個解決了海量資料儲存,一個解決了海量資料計算。根據CIOReview嘉賓的觀點,在國外企業看來,Hadoop開源雖然降低了購買成本,但整個搭建部署成本並不低且要結合企業自身的資料量規模。
Facebook、YouTube、雅虎等財富排名在前50的企業基本都部署了Hadoop,但是有一些情況是不適合使用Hadoop的,比如:
1、實時資料處理分析場景
Hadoop最擅長且最專注的就是批處理,對於實時資料處理分析的需求,Hadoop完整分析的響應時間會很久。Dstillery首席科學家Claudia Perlich表示,如果需要在30毫秒內查詢擁有3億人的資料庫中的某些資訊,Hadoop無法做到快速響應這一需求。
2、小型資料集處理
對於小型資料集的處理需求,現在有很多可用的工具,比如Excel,RDBMS等,使用Hadoop是十分不明智的,這會浪費掉大量資源,導致整個使用成本非常高,畢竟Hadoop是為了解決海量資料處理問題而誕生的。
3、取代現有基礎設施
Hadoop為大資料領域提供了智慧儲存解決方案,但是如果你抱著取代現有基礎設施的念頭,那還是不要部署Hadoop了,將Hadoop視為可替代現有資料分析基礎架構的想法並不明智。通常,企業會選擇與資料倉儲結合使用以獲得最大收益。
4、技術門檻
儘管Hadoop開源且擁有相當活躍和龐大的社群,但對企業而言,技術門檻這關並不是好邁的。Hadoop的MapReduce和HDFS固然好,但是搭建這些架構是需要具備相當專業的技術知識和實力的。近幾年,大資料相關專業人才更是身價倍增,企業如果想要招聘相關技術專家,需要付出相當高的人力成本。為了保證企業海量資料安全平穩得執行,企業還需要花費成本建立運維和資料安全團隊,這部分成本是沒辦法忽略的。
5、機器學習能力欠缺
AI時代,這一缺點變得非常致命。Ness SES的CTO Moshe Kranc認為,Hadoop已經展示出了其年代感,不管是Hadoop的HDFS、MapReduce還是它的機器學習元件Mahout。在這一方面,Spark似乎表現更加優異,Spark不斷從Hadoop的經歷中學習,具有更通用和可擴充套件的程式設計模型,易於分析且擁有強大的圖形資料庫(Graphx)和全功能資料科學庫(MLib)。當然,如果企業自己具備生態整合的能力,那麼這個問題可能就不存在了。
▲Ness SES的CTO Moshe Kranc
如果只學會了用Hadoop儲存大量資料,那麼毫無意義!
對國外企業而言,糟糕的使用者體驗很可能是因為並沒有發揮出Hadoop的優勢,Hadoop這樣的分散式系統在海量資料處理方面的優勢毋庸置疑,但是為什麼很多企業並不看好它呢?
▲Silicon Valley Data Science的CTO John Akred
Silicon Valley Data Science的CTO John Akred表示,在國外,無論是醫療保健、製造業還是金融領域,公司在部署Hadoop這樣的分散式系統時一般會選擇從初始用例也就是簡單用例開始,以便了解整個Hadoop的工作流程。公司可能會開始嘗試將部分資料收集並執行到Hadoop之上,透過簡單的測試證明,確實可以使用Hadoop來儲存大量非結構化資料,到這裡所有步驟似乎都沒有問題,但這真的對業務產生價值了嗎?如果企業並沒有透過部署Hadoop而對業務產生價值,那麼這一決策的意義是什麼呢?
其次,很多企業會低估Hadoop的操作複雜性,無法清晰認知習慣了使用IBM Db2和Oracle等傳統資料技術的人在使用Hadoop方面會面臨多少轉型問題。
戴爾EMC的Boni Bruno:推動Hadoop建設的三大關鍵因素!
通篇,我們不難發現,國外大部分企業之所以會拒絕部署Hadoop,一部分原因是自身資料量尚未達到海量規模,一部分是部署和使用方式有困難。Boni Bruno表示,戴爾EMC已經幫助不少企業成功部署了Hadoop大資料分析解決方案,其不少客戶對於Hadoop還是極其關心的,Boni Bruno認為企業採用Hadoop有三大關鍵驅動因素:
▲戴爾EMC首席解決方案架構師Boni Bruno
1、企業資料倉儲最佳化
隨著資料量的增加,許多CIO會發現企業資料倉儲(EDW)的容量正在逐漸耗盡,導致資料載入處理時間過長,SLA得不到滿足,最終影響關鍵業務的智慧交付。透過將資源密集型ETL流程遷移到Hadoop,CIO可以在其EDW上釋放寶貴的CPU週期並提高效能。透過將冷資料遷移至Hadoop,可以節省資金並釋放容量降低成本。事實上,與EDW系統中不可用的其他資料結合時,可以挖掘Hadoop中的冷資料以獲得額外的業務洞察。使用外部系統日誌、社交媒體、安全資料等分析冷資料,使用Hadoop最佳化EDW,可為CIO降低成本,改進報告並支援更多型別的非結構化資料。
2、流式分析和物聯網
以Hortonworks Data Flow或IBM Streams為例,CIO可根據需要向Hadoop叢集新增和調整資料來源,跟蹤和審計資料路徑,並使用可用頻寬動態調整資料管道。關鍵是可以探索、最佳化和變換資料,比如支付跟蹤、定價、消費者反饋、收縮分析、客戶行為等,從而最佳化整個供應鏈、客戶支援、庫存控制、供應商記分卡等。轉變業務模式,主動配置人員,改進目標供應,並使用預測分析增強各種其他業務流程。
3、安全分析和威脅檢測
Hadoop的安全分析和威脅檢測用例日益增長。在Netflow流、日誌流、資料流和儲存資料上使用機器學習演算法和資料分析,公司可以識別複雜的威脅載體並主動修復攻擊。從欺詐檢測到資料竊取,Hadoop提供了一個完整的平臺,可處理全套遙測資料,實現高階關聯併為先期威脅提供單一檢視。
以上這些國外企業在搭建Hadoop時遇到的問題也側面證實了Gartner“Hadoop即將在到達生產成熟期之前衰落”的結論,因為整個報告的調查主體相對來說更偏向於國外企業,這些企業對Hadoop的態度直接影響了Gartner的結論,而上述這些問題放在國內的大資料環境又會發生很多變化,這也讓國內不少企業無法相信Hadoop失寵言論。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2156397/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 現在很猶豫
- 不再猶豫----【諧音歌詞】
- 讀取腦磁波,神經網路知道你在「猶豫不定」神經網路
- 看到有人猶豫買不買教程有感
- 130 欠薪的公司,不要做任何猶豫!
- 微服務應用視角解讀如何選擇 K8s 的彈性策略微服務K8S
- 蘋果iPhone XR公開售賣 你還在猶豫買什麼手機嗎?蘋果iPhone
- hadoop商業版本選擇對比Hadoop
- 什麼時候選擇mmap而非read?
- 解讀:生物技術圖紙管理軟體怎麼選擇?選擇軟體時注意事項
- 新加坡為什麼是ICO的最後選擇,同時也是最佳選擇?
- 為什麼企業選擇ERP系統時會優先考慮SAP?
- 面試時,面試官到底在考察什麼?面試
- 為什麼選擇.NETCore?NetCore
- 工程師什麼時機最合適選擇跳槽?工程師
- 選擇資料分析軟體時要注意什麼
- 為什麼越來越多的企業選擇智慧視覺化管理模式?視覺化模式
- 【CTO變形記】驅動力的選擇
- 為什麼選擇linux這條職業賽道Linux
- 為什麼要選擇蘋果企業簽名?蘋果
- 為什麼不上架,選擇企業簽名?
- 企業該選擇什麼樣的CRM系統
- 即時通訊系統為什麼選擇GaussDB(for Redis)?Redis
- Aembit為什麼選擇 Rust?Rust
- 為什麼選擇使用Rust?Rust
- 為什麼選擇Guice框架GUI框架
- 堅持“動態清零”總方針不猶豫不動搖
- 企業為什麼選擇伺服器呢?有什麼優勢嗎?伺服器
- 為什麼模切企業選擇ERP系統時會優先考慮點晴
- IT行業再給你一次選擇人生的機會,那麼你會選擇學什麼?行業
- CTO(技術總監)平時都在做些什麼?
- 中小企業為什麼要選擇雲伺服器?伺服器
- 耗時兩個月調研,國內傳統企業對Hadoop到底什麼態度?Hadoop
- 想要高畫質影片?別猶豫,立即下載4K Video DownloaderIDE
- 為什麼選擇高防DNS?DNS
- 為什麼選擇centos系統CentOS
- 為什麼選擇Cynefin框架? – zwischenzugs框架
- 當我們談論Spring的時候到底在談什麼Spring