大資料主要學習什麼?

大資料學習發表於2019-12-29

學習大資料需要的基礎

1、java SE、EE(SSM)

90%的大資料框架都是Java寫的

2、MySQL

SQL on Hadoop

3、Linux

大資料的框架安裝在Linux作業系統上

大資料主要學習什麼?

- 需要學什麼

.在入門學大資料的過程當中有遇見學習,行業,缺乏系統學習路線,系統學習規劃,歡迎你加入我的大資料學習交流裙:251956502 ,裙檔案有我這幾年整理的大資料學習手冊,開發工具,PDF文件書籍,你可以自行下載。

大資料離線分析

一般處理T+1資料(T:可能是1天、一週、一個月、一年)

a、Hadoop :一般不選用最新版本,踩坑難解決

(common、HDES、MapReduce、YARN)

環境搭建、處理資料的思想

b、Hive:大資料的資料倉儲

透過寫SQL對資料進行操作,類似於MySQL資料庫的sql

c、HBase:基於HDFS的NOSQL資料庫

面向列儲存

d、協作框架:

sqoop(橋樑:HDFS《==》RDBMS)

flume:蒐集日誌檔案中的資訊

e、排程框架

anzkaban

瞭解:crotab(Linux自帶)

zeus(Alibaba)

Oozie(cloudera)

f、前沿框架擴充套件:

kylin、impala、ElasticSearch(ES)

大資料實時分析

以spark框架為主

Scala:OOP(物件導向程式設計)+FP(函式是程式設計)

sparkCore:類比MapReduce

sparkSQL:類比hive

sparkStreaming:實時資料處理

kafka:訊息佇列

前沿框架擴充套件:flink

阿里巴巴:blink

大資料機器學習

spark MLlib:機器學習庫

pyspark程式設計:Python和spark的結合

推薦系統

python資料分析

python機器學習


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69917001/viewspace-2671131/,如需轉載,請註明出處,否則將追究法律責任。

相關文章