大資料零基礎入門需要多長時間?

xyz藍月發表於2019-05-12

很多做其他方向的程式設計師or工程師對大資料方向很有興趣,作為從業者我今天撈點乾的來聊一聊~

什麼是大資料?

大資料單從名字來看,大量的資料,單單從名字來看沒有任何技術含量。現在大資料這三個字如此火,不得不說這三個字成為了很好的商業噱頭,對於投資人和創業者而言,大資料是個熱門的融資標籤,各種原由直接成就了現在的大資料盛況,各家企業爭先開展大資料業務,大資料人才空前稀缺,人才缺口高大150萬。

那對於從業者來說大資料到底是什麼呢?狹隘的來說無非就是大量的資料進行清洗處理成規則的資料來進行儲存後,再進行系列的計算、建模等最後輸出對企業有用的資料/預測來支撐企業的運營。

大資料在企業中都有什麼應用?

 大資料平臺在企業中扮演的角色是整個公司的資料中樞,最底層的是打通公司所有部門的資料、採集所有有意義的資料、建設統一的資料倉儲,基礎工作完成後就是建設BI及視覺化平臺。除此外還有運用資料帶來運營的效果,例如大資料風控、大資料推薦、大資料精準運營等等。

我這裡截了一張企業正在使用的大資料平臺的管理頁面的執行截圖,最左側列出的就是企業中常用的基本工具了。


大資料零基礎入門需要多長時間?

可以看到的元件有:hive、hue、impala、oozie、sqoop、zookeeper等,這些就是組成企業大資料平臺最基本的成員了~

轉型大資料開發需要掌握的最基本技能有哪些?

1.linux基礎和分散式叢集的技術 (基礎知識:shell)

熟練使用Linux,熟練安裝Linux上的軟體,瞭解熟悉負載均衡、高可靠等叢集相關概念,搭建網際網路高併發、高可靠的服務架構。這個技能最基礎最核心,是大資料開發從業者必備技能。(入門時長:建議3-5天,需簡單掌握shell指令碼編寫。明天趙趙會整理一篇入門Linux的帖子~)

2.離線大資料處理必備技術 (基礎知識:java/python/scala都可)

1. 掌握hadoop底層分散式檔案系統HDFS的原理、操作和應用開發,建議先了解原理,在搭建原生叢集來實踐,具體搭建方法可以留言獲取或等待後續更新哈~(入門時長:建議5天)

2. 掌握MAPREDUCE分散式運算系統的工作原理和分散式分析應用開發,依然是先原理再程式碼實踐(入門時長:根據語言基礎而定,有java基礎建議5天)

3 .掌握Hive資料倉儲工具的工作原理及應用開發,瞭解清楚資料倉儲和普通資料庫的工作原理的不同,熟練使用sql進行開發(入門時長:根據sql基礎而定)

3.實時計算階段的技術 (基礎知識:java/python/scala都可)

現在主流的實時計算開源框架有strom和sparkstreaming,新手建議學習strom+kafka。需要掌握Storm開發及底層原理、Kafka的開發及底層原理、Kafka與Storm整合使用。具備開發基於storm實時計算程式的技術能力。(入門時長:有語言基礎建議10天)

以上是大資料開發最最基礎的技術,也是企業大資料實戰應用最多的~

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69903766/viewspace-2644075/,如需轉載,請註明出處,否則將追究法律責任。

相關文章