2019大資料學習路線指南(最全知識點總結)
大資料是對海量資料進行儲存、計算、統計、分析處理的一系列處理手段,處理的資料量通常是TB級,甚至是PB或EB級的資料,這是傳統資料處理手段所無法完成的,其涉及的技術有分散式計算、高併發處理、高可用處理、叢集、實時性計算等,彙集了當前IT領域熱門流行的IT技術。
大資料入門,需要學習以下這些知識點:
1、Java程式設計技術
Java程式設計技術是大資料學習的基礎,Java是一種強型別語言,擁有極高的跨平臺能力,可以編寫桌面應用程式、Web應用程式、分散式系統和嵌入式系統應用程式等,是大資料工程師最喜歡的程式設計工具,因此,想學好大資料,掌握Java基礎是必不可少的。
2、Linux命令
對於大資料開發通常是在Linux環境下進行的,相比Linux作業系統,Windows作業系統是封閉的作業系統,開源的大資料軟體很受限制,因此,想從事大資料開發相關工作,還需掌握Linux基礎操作命令。
3、Hadoop
Hadoop是大資料開發的重要框架,其核心是HDFS和MapReduce,HDFS為海量的資料提供了儲存,MapReduce為海量的資料提供了計算,因此,需要重點掌握,除此之外,還需要掌握Hadoop叢集、Hadoop叢集管理、YARN以及Hadoop高階管理等相關技術與操作!
4、Hive
Hive是基於Hadoop的一個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行執行,十分適合資料倉儲的統計分析。對於Hive需掌握其安裝、應用及高階操作等。
5、Avro與Protobuf
Avro與Protobuf均是資料序列化系統,可以提供豐富的資料結構型別,十分適合做資料儲存,還可進行不同語言之間相互通訊的資料交換格式,學習大資料,需掌握其具體用法。
6、ZooKeeper
ZooKeeper是Hadoop和Hbase的重要元件,是一個為分散式應用提供一致性服務的軟體,提供的功能包括:配置維護、域名服務、分散式同步、元件服務等,在大資料開發中要掌握ZooKeeper的常用命令及功能的實現方法。
7、HBase
HBase是一個分散式的、面向列的開源資料庫,它不同於一般的關聯式資料庫,更適合於非結構化資料儲存的資料庫,是一個高可靠性、高效能、面向列、可伸縮的分散式儲存系統,大資料開發需掌握HBase基礎知識、應用、架構以及高階用法等。
8、phoenix
phoenix是用Java編寫的基於JDBC API操作HBase的開源SQL引擎,其具有動態列、雜湊載入、查詢伺服器、追蹤、事務、使用者自定義函式、二級索引、名稱空間對映、資料收集、行時間戳列、分頁查詢、跳躍查詢、檢視以及多租戶的特性,大資料開發需掌握其原理和使用方法。
9、Redis
Redis是一個key-value儲存系統,其出現很大程度補償了memcached這類key/value儲存的不足,在部分場合可以對關聯式資料庫起到很好的補充作用,它提供了Java,C/C++,C#,PHP,JavaScript,Perl,Object-C,Python,Ruby,Erlang等客戶端,使用很方便,大資料開發需掌握Redis的安裝、配置及相關使用方法。
10、Flume
Flume是一款高可用、高可靠、分散式的海量日誌採集、聚合和傳輸的系統,Flume支援在日誌系統中定製各類資料傳送方,用於收集資料;同時,Flume提供對資料進行簡單處理,並寫到各種資料接受方(可定製)的能力。大資料開發需掌握其安裝、配置以及相關使用方法。
11、SSM
SSM框架是由Spring、SpringMVC、MyBatis三個開源框架整合而成,常作為資料來源較簡單的web專案的框架。大資料開發需分別掌握Spring、SpringMVC、MyBatis三種框架的同時,再使用SSM進行整合操作。
12、Kafka
Kafka是一種高吞吐量的分散式釋出訂閱訊息系統,其在大資料開發應用上的目的是通過Hadoop的並行載入機制來統一線上和離線的訊息處理,也是為了通過叢集來提供實時的訊息。大資料開發需掌握Kafka架構原理及各元件的作用和使用方法及相關功能的實現。
13、Scala
Scala是一門多正規化的程式語言,大資料開發重要框架Spark是採用Scala語言設計的,想要學好Spark框架,擁有Scala基礎是必不可少的,因此,大資料開發需掌握Scala程式設計基礎知識!
14、Spark
Spark是專為大規模資料處理而設計的快速通用的計算引擎,其提供了一個全面、統一的框架用於管理各種不同性質的資料集和資料來源的大資料處理的需求,大資料開發需掌握Spark基礎、SparkJob、Spark RDD、spark job部署與資源分配、Spark shuffle、Spark記憶體管理、Spark廣播變數、Spark SQL、Spark Streaming以及Spark ML等相關知識。
15、Azkaban
Azkaban是一個批量工作流任務排程器,可用於在一個工作流內以一個特定的順序執行一組工作和流程,可以利用Azkaban來完成大資料的任務排程,大資料開發需掌握Azkaban的相關配置及語法規則。
16、Python與資料分析
Python是物件導向的程式語言,擁有豐富的庫,使用簡單,應用廣泛,在大資料領域也有所應用,主要可用於資料採集、資料分析以及資料視覺化等,因此,大資料開發需學習一定的Python知識。
相關文章
- 大資料學習路線指南(最全知識點總結)大資料
- web前端學習路線,前端開發最全知識點彙總(附學習教程資料)Web前端
- Vue學習知識點總結Vue
- 【java學習】java知識點總結Java
- PG知識點學習總結圖
- 【Go學習】Go(Golang)知識點總結Golang
- JAVA學習-------第二週知識點總結Java
- 吐血總結|史上最全的MySQL學習資料!!MySql
- DAMA資料管理知識體系指南 路線圖
- 2019全網最新java學習路線知識點彙總(小白到大神)Java
- 知識點總結
- 離散數學 II(最全面的知識點彙總)
- 大資料學習,涉及的知識點大資料
- 認知網路知識點及例題總結
- 計算機網路知識點總結計算機網路
- 執行緒學習知識總結執行緒
- 第十週學習知識總結
- Java 知識點總結Java
- django知識點總結Django
- iOS 知識點總結iOS
- MongoDB知識點總結MongoDB
- HDFS知識點總結
- HBase知識點總結
- jQuery 知識點總結jQuery
- Kafka知識點總結Kafka
- Tomcat 知識點總結Tomcat
- MySQL知識點總結MySql
- 零基礎學習Java,全方位知識點總結!Java
- 「課代表」幫你總結了全網最全的Redis知識點Redis
- 卷積神經網路知識點總結卷積神經網路
- 打工四年總結的資料庫知識點資料庫
- 最新大廠資料湖面試題,知識點總結面試題
- 機器學習及深度學習的知識點及面試題總結機器學習深度學習面試題
- 好程式設計師大資料學習路線分享HDFS學習總結程式設計師大資料
- 好程式設計師大資料學習路線Hbase總結程式設計師大資料
- 資料庫基礎知識整理與複習總結資料庫
- 前端知識點總結——Vue前端Vue
- 知識點漏缺總結