新興產業的出現和發展有兩種基本模式。一種是需求導向型,實際應用中出現了明顯的痛點,必須要解決,不然就有人一直痛。另一種是技術導向型,革命性的技術先出現,慢慢地新技術擴大了使用者的想象空間,進而激發出新的需求。大資料從概念提出到今天形成一個完整的產業,基本上屬於第二種模式。
Hadoop生態系統下的技術(包括 pig,hive,spark,storm,hbase等)是目前大資料業界中事實上的標準。但在hadoop從網際網路產業走出之前,大資料本身還不能稱之為一個“產業”,因為它沒有形成足夠大的規模。所以大資料並不是指資料量有多大,是GB,TB還是PB,這其實沒有關係。真正意義上的大資料是指 hadoop體系技術從網際網路行業被引入到其它行業,進而得到快速、廣泛、多維度、多層次的大量普及應用。大資料之大,在於應用規模的大,而不是資料量的大。現在大資料的應用已經遠遠超越了網際網路行業,包括公安、智慧城市、醫療、交通、教育、通訊、遊戲、服裝、地產、旅遊、保險、銀行、證券、食品安全、海事、零售、氣象等等–世界正快速進入全面資料服務的時代!
大資料產業發展最快的一個是美國,另一個就是中國。有關中國大資料市場容量的預測和估算有很多版本,激進者估計千億市場的,悲觀的認為國內大資料市場剛剛萌芽。判斷一個行業發展趨勢最好的工具現在就是求職招聘網站。我們將通過大資料相關職位空缺數,來判斷國內大概有多少個企業客戶在實施大資料專案。我們以51job為例做些調查分析。分析的方法非常簡單,統計大資料相關職位的招聘情況。以下資料截止到2015年4月27日,來源於51job,地域覆蓋北上廣深杭。
分別選取了比較熱門的一些招聘職位:資料分析師、hadoop、資料探勘、大資料開發工程師,企業招聘情況如下:
161357oqo2tup6boz8o1oo
合計為2861個,對結果進行一些修正:
(1)因為職位名稱,或者沒覆蓋到的其他大資料技術職位,乘以係數:1.2
(2)因為51job的限制,僅僅統計了5個城市,乘以係數1.3
(3)可能沒在51job上釋出的職位: 乘以係數1.1
這樣修正後,國內大資料職位空缺數4909。根據這個數字,我們來推算客戶數:
(4)考慮同一家公司可能同時有1-3個大資料相關職位釋出,乘以係數:0.8
(5)假設在實施大資料專案的客戶有五分之一的有招聘需求,乘以係數:5.0
最終結果:19636。
也就是說,截止2015年4月27日,國內有大概19636個大資料專案在進行。假設平均一個專案規模為50萬(比較保守的估計),則國內大資料專案的規模合計為98億人民幣。考慮現在才是2015年第二季度,2015全年大資料專案規模肯定超過100億人民幣。資料服務有限公司)