為什麼很多大資料專案搞著搞著就黃了？

趙鈺瑩發表於2018-05-07

原文網址 : http://blog.itpub.net/31077337/viewspace-2154081/

大資料正在改變世界。但是，大多數大資料專案搞著搞著就黃了，很難成功。這是為什麼呢?

　　企業正努力在產品中部署大資料，這一點是毋庸置疑的。但是，根據Gartner在2016年下半年釋出的新聞稿：只有15%的企業將其大資料專案部署到生產中。”Gartner在選詞時非常謹慎，這並不意味著剩下的企業沒有實踐，或者資料科學家沒有發現使用大資料技術的優勢，只是剩下的85%的專案並沒有真正投入生產。

　　問題不在於缺少大資料分析或者是大量的資料科學實驗。真正的挑戰是缺乏大資料自動化能力，以便將實驗版本從沙箱推入功能齊全的生產環境中。

為什麼很多大資料專案搞著搞著就黃了？

　　大多數人認為分析生產就是調整叢集。當然，可以編寫一個sqoop指令碼並將表格放入一次。但是，在不影響源系統的情況下多次實現則是一個挑戰。然後，必須確保構建的資料管道在由服務級別協議(SLA)設定的時間範圍內提供資料。此外，資料模型需要針對使用者當前正在使用的工具(如Tableau，Qlik等)進行優化，以達到使用者所期望的響應能力。

　　在Hadoop和Spark之上使用工具進行大量的努力和改進以對大型資料集進行快速原型設計。但原型是一回事，建立每天執行而不發生故障的資料工作流程，或者在資料流作業失敗時自動啟用恢復，又是另外一回事。

　　本文作者分析了五大大資料專案夭折最常見的技術原因：

　　1、無法快速載入資料以滿足SLA

　　雖然像sqoop這樣的工具支援資料讀取的並行化以從傳統資料來源獲取資料到資料湖，但需要專家來使其正常工作。如何劃分資料?要執行多少個容器等問題都需要專家給出合適的解決方案。如果無法正確處理並行資料的讀取，則一個小時就可完成的任務甚至需要10到20倍的時間，因為大多數人不知道如何正確調整。

　　2、不能逐步載入資料以滿足SLA

　　大多數企業並未將整個操作轉移到大資料環境中。他們從現有的作業系統移動資料以執行新的分析或機器學習，這意味著需要在新資料到達時繼續載入。問題是這些環境不支援新增，刪除或插入的概念，這意味著必須重新載入整個資料集(請參閱上面的第1點)，否則必須圍繞一次更改捕獲問題編寫程式碼。

　　為什麼很多大資料專案搞著搞著就黃了？

　　3、不能以互動方式提供對資料包告的訪問許可權

　　想象一下，如果有1000位商業智慧分析師，他們都不想使用您的資料模型，因為他們需要很長時間才能查詢。這是Hadoop的一個經典問題，也是許多公司僅使用Hadoop進行預處理和應用特定機器學習演算法，但隨後將最終資料集移回傳統資料倉儲以供BI工具使用的原因。無論如何，這個過程又為成功完成大資料專案增加了難度。

　　4、不能從測試遷移到生產

　　許多企業能夠確定沙箱環境中資料科學家的新見解的潛力。一旦他們確定採納新的分析方法，就需要從沙盒轉移到生產環境。從開發轉移到生產是一個完整的升降和換擋操作，通常是手動完成的。雖然它在開發叢集上執行良好，但現在相同的資料管道必須在生產叢集上重新優化。這種調整往往需要大量的返工才能有效執行。如果開發環境與生產環境有任何不同，則情況尤其複雜。

　　5、不能管理端到端的生產工作量

　　大多數企業都將注意力集中在工具上，因此他們的資料分析師和科學家可以更輕鬆地識別新的方法。但是，他們沒有投資類似的工具來執行生產環境中的資料工作流程，因此不得不擔心啟動、暫停和重新啟動過程，還必須擔心確保作業的容錯性，處理通知以及協調多個工作流以避免“衝突”。

　　因為上述五大技術原因，導致很多大資料專案並沒有如期與我們見面。當然，如果你有更棒的見解，歡迎在評論區留言。

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31077337/viewspace-2154081/，如需轉載，請註明出處，否則將追究法律責任。

拿著爬蟲資料，搞事情啊！！
2018-08-03
爬蟲
跟著老貓來搞GO，"物件導向"
2021-11-30
Go物件
跟著老貓來搞GO-容器(1)
2021-11-15
Go
黑燈瞎火搞什麼？搞智造！
2021-09-05
跟著老貓來搞GO，基礎進階
2021-11-08
Go
資料專案風險-都在為別人著想
2022-01-04
跟著老貓來搞GO-內建容器Map
2021-11-22
Go
接手了個專案，被if..else搞懵逼了
2023-12-24
刀牌就這麼死了，但Valve仍沒搞明白它為什麼失敗
2021-03-12
國美搞什麼金融？
2020-05-01
跟著老貓來搞GO，集跬步而致千里
2021-11-01
Go
輕鬆搞跨資料治理，就靠這7招！
2022-03-21
第三期 |《早早聊搞搭建》搞過搭建的我收穫了什麼？（下篇）
2020-03-31
你在為什麼煩惱著
2021-04-17
搞透 IOC，Spring IOC 看這篇就夠了！
2022-09-26
Spring
資料資產管理：資料目錄怎麼搞？
2022-07-19
我選單為什麼跟著滑動了？！！—— 固定定位為什麼會失效？
2024-08-02
大模型不會推理，為什麼也能有思路？有人把原理搞明白了
2024-11-22
大模型
我大抵是捲上癮了，橫豎睡不著！竟讓一個Bug，搞我兩次！
2022-06-27
報告老闆：中臺專案成功了，CTO也被搞走了
2020-05-09
YUI TreeView搞明白了
2019-03-31
UIView
為什麼SQL正在擊敗NoSQL，這對未來的資料意味著什麼
2022-12-05
SQL
微火：共享WiFi專案如此火爆，怎麼躺著把錢賺了？
2023-02-21
WiFi
資料湖還沒玩明白，就別想著湖倉一體了！
2022-08-22
是時候著手搞一套屬於自己的vue元件庫啦！！！
2020-08-06
Vue元件
因為什麼你還在北京苟著
2024-06-10
CNCF 接受 Knative 專案，對雲原生生態意味著什麼？
2022-03-17
王心凌又火了這裡面就隱藏著專案
2022-05-26
我們爬了7萬條相親吐槽，看著看著就哭了
2019-09-26
為什麼搞技術的很少有“暴發戶”？因為沒有“捷徑”，而且也很難“投機取巧”
2022-12-06
李豐：中國為什麼一定要搞新基建？到2030年你就都明白了
2020-06-14
搞基礎理論研究有什麼用？
2018-12-23
踩著我親aj是什麼意思踩著我親aj是什麼梗?
2018-08-02
在遊戲中尋求藍色即我方是否搞錯了什麼？
2019-09-25
遊戲
什麼樣的人適合搞副業？我總結了以下幾點
2022-08-01
為什麼被使用者牽著鼻子走？
2021-09-17
《新科學家》：人為什麼不能永遠醒著？
2021-05-08
為什麼RPA專案失敗了呢？
2020-04-08

為什麼很多大資料專案搞著搞著就黃了？

相關文章