果金：2019年最新大資料學習路線（完整詳細版，含整套教程）

懂天明發表於2019-05-19

原文網址 : https://www.cnblogs.com/xinlangboke/p/10891068.html

大資料學習路線

很多初學者，對大資料的概念都是模糊不清的，大資料是什麼，能做什麼，學的時候，該按照什麼線路去學習，學完往哪方面發展，想深入瞭解，想學習的同學歡迎加入大資料學習qq群：410391744，有大量乾貨（零基礎以及進階的經典實戰）分享給大家，並且有清華大學畢業的資深大資料講師給大家免費授課，給大家分享目前國內最完整的大資料高階實戰實用學習流程體系。

java(Java se,javaweb)

Linux(shell,高併發架構,lucene,solr)

Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)

機器學習(R,mahout)

Storm(Storm,kafka,redis)

Spark(scala,spark,spark core,spark sql,spark streaming,spark mllib,spark graphx)

Python(python,spark python)

雲端計算平臺(docker,kvm,openstack)

名詞解釋

一、Linux

lucene：全文檢索引擎的架構

solr：基於lucene的全文搜尋伺服器，實現了可配置、可擴充套件並對查詢效能進行了優化，並且提供了一個完善的功能管理介面。

二、Hadoop

HDFS：分散式儲存系統，包含NameNode，DataNode。NameNode：後設資料，DataNode。DataNode：存數資料。

yarn：可以理解為MapReduce的協調機制，本質就是Hadoop的處理分析機制，分為ResourceManager NodeManager。

MapReduce：軟體框架，編寫程式。

Hive：資料倉儲可以用SQL查詢，可以執行Map/Reduce程式。用來計算趨勢或者網站日誌，不應用於實時查詢，需要很長時間返回結果。

HBase：資料庫。非常適合用來做大資料的實時查詢。Facebook用Hbase儲存訊息資料並進行訊息實時的分析

ZooKeeper：針對大型分散式的可靠性協調系統。Hadoop的分散式同步等靠Zookeeper實現，例如多個NameNode，active standby切換。

Sqoop：資料庫相互轉移，關係型資料庫和HDFS相互轉移

Mahout：可擴充套件的機器學習和資料探勘庫。用來做推薦挖掘，聚集，分類，頻繁項集挖掘。

Chukwa：開源收集系統，監視大型分散式系統，建立在HDFS和Map/Reduce框架之上。顯示、監視、分析結果。

Ambari：用於配置、管理和監視Hadoop叢集，基於Web，介面友好。

二、Cloudera

Cloudera Manager：管理監控診斷整合

Cloudera CDH：(Cloudera's Distribution，including Apache Hadoop) Cloudera對Hadoop做了相應的改變，發行版本稱為CDH。

Cloudera Flume：日誌收集系統，支援在日誌系統中定製各類資料傳送方，用來收集資料。

Cloudera Impala：對儲存在Apache Hadoop的HDFS，HBase的資料提供直接查詢互動的SQL。

Cloudera hue： web管理器，包括hue ui，hui server，hui db。hue提供所有CDH元件的shell介面的介面，可以在hue編寫mr。

三、機器學習/R

R：用於統計分析、繪圖的語言和操作環境，目前有Hadoop-R

mahout：提供可擴充套件的機器學習領域經典演算法的實現，包括聚類、分類、推薦過濾、頻繁子項挖掘等，且可通過Hadoop擴充套件到雲中。

四、storm

Storm：分散式，容錯的實時流式計算系統，可以用作實時分析，線上機器學習，資訊流處理，連續性計算，分散式RPC，實時處理訊息並更新資料庫。

Kafka：高吞吐量的分散式釋出訂閱訊息系統，可以處理消費者規模的網站中的所有動作流資料（瀏覽，搜尋等）。相對Hadoop的日誌資料和離線分析，可以實現實時處理。目前通過Hadoop的並行載入機制來統一線上和離線的訊息處理

Redis：由c語言編寫，支援網路、可基於記憶體亦可持久化的日誌型、key-value型資料庫。

五、Spark

Scala：一種類似java的完全物件導向的程式語言。

jblas：一個快速的線性代數庫（JAVA）。基於BLAS與LAPACK，矩陣計算實際的行業標準，並使用先進的基礎設施等所有的計算程式的ATLAS藝術的實現，使其非常快。

Spark： Spark是在Scala語言中實現的類似於Hadoop MapReduce的通用並行框架，除了Hadoop MapReduce所具有的優點，但不同於MapReduce的是job中間輸出結果可以儲存在記憶體中，從而不需要讀寫HDFS，因此Spark能更好的適用於資料探勘與機器學習等需要迭代的MapReduce演算法。可以和Hadoop檔案系統並行運作，用過Mesos的第三方叢集框架可以支援此行為。

Spark SQL：作為Apache Spark大資料框架的一部分,可用於結構化資料處理並可以執行類似SQL的Spark資料查詢

Spark Streaming：一種構建在Spark上的實時計算框架，擴充套件了Spark處理大資料流式資料的能力。

Spark MLlib： MLlib是Spark是常用的機器學習演算法的實現庫，目前(2014.05)支援二元分類，迴歸，聚類以及協同過濾。同時也包括一個底層的梯度下降優化基礎演算法。MLlib以來jblas線性代數庫，jblas本身以來遠端的Fortran程式。

Spark GraphX： GraphX是Spark中用於圖和圖平行計算的API，可以在Spark之上提供一站式資料解決方案，可以方便且高效地完成圖計算的一整套流水作業。

Fortran：最早出現的計算機高階程式設計語言，廣泛應用於科學和工程計算領域。

BLAS：基礎線性代數子程式庫，擁有大量已經編寫好的關於線性代數運算的程式。

LAPACK：著名的公開軟體，包含了求解科學與工程計算中最常見的數值線性代數問題，如求解線性方程組、線性最小二乘問題、特徵值問題和奇異值問題等。

ATLAS： BLAS線性演算法庫的優化版本。

Spark Python： Spark是由scala語言編寫的，但是為了推廣和相容，提供了java和python介面。

六、Python

Python: 一種物件導向的、解釋型計算機程式設計語言。

七、雲端計算平臺

Docker：開源的應用容器引擎

kvm： (Keyboard Video Mouse)

openstack：開源的雲端計算管理平臺專案

Java學習路線（完整詳細2019版）
2019-03-09
Java
最新Java學習路線圖（完整詳細版）-千鋒Java教學出品
2019-12-04
Java
Java學習課件框架，12月最新Java學習路線圖（完整詳細版）
2019-12-04
Java框架
大資料初學者必備的詳細版學習路線圖
2019-05-07
大資料
2019最新大資料學習路線圖
2019-01-02
大資料
大資料開發學習Hadoop路線圖（詳細篇）
2018-11-19
大資料Hadoop
2019版大資料學習路線圖
2019-01-25
大資料
全新版最新大資料學習路線+資料教你從零做起
2019-03-16
大資料
大資料學習路線
2019-06-03
大資料
2018最新大資料學習路線從入門到精通
2018-08-30
大資料
零基礎大資料學習線路詳解
2019-05-24
大資料
大資料學習路線圖
2018-10-02
大資料
大資料最佳學習路線
2018-05-17
大資料
2020年最新Java學習教程路線圖
2020-04-21
Java
大資料學習路線教程圖，如何快速入門Spark
2019-12-23
大資料Spark
零基礎學習Python的學習路線及教程！附19最新python學習資料分享
2019-02-26
Python
大資料經典學習路線
2019-01-23
大資料
前端完整學習路線
2018-12-25
前端
大資料經典學習路線，必看！！
2019-04-11
大資料
大資料工程師-學習路線-轉
2018-09-26
大資料工程師
java轉大資料的學習路線
2019-04-29
Java大資料
好程式設計師大資料學習路線分享AWK詳解
2019-08-27
程式設計師大資料
大資料學習方法，學大資料需要的基礎和路線
2019-07-11
大資料
好程式設計師大資料學習路線之大資料自學路線二
2019-09-18
程式設計師大資料
好程式設計師大資料學習路線之大資料自學路線一
2019-09-18
程式設計師大資料
想學習大資料？這才是完整的大資料學習體系
2019-05-11
大資料
大資料學習入門規劃？和學習路線
2018-11-05
大資料
小白如何學習大資料開發，大資料學習路線是怎樣的？
2018-10-14
大資料
大資料學習路線圖讓你精準掌握大資料技術學習
2019-07-08
大資料
大資料學習路線分享Master的jps
2019-08-19
大資料AST
2020最新蘋果App真機除錯測試詳細教程
2019-12-13
蘋果APP除錯
什麼是大資料？零基礎如何學習大資料？（附學習路線）
2018-08-29
大資料
全網最全最新的大資料系統學習路徑
2019-05-14
大資料
Visual Studio 2019連線MySQL資料庫詳細教程
2021-11-11
MySql資料庫
資料科學、資料工程學習路線
2022-05-07
資料科學
什麼是大資料？大資料學習路線和就業方向
2019-06-25
大資料就業
大資料Hadoop系統性學習路線圖
2018-11-15
大資料Hadoop
計算機小白大資料學習線路圖
2018-08-31
計算機大資料

果金：2019年最新大資料學習路線（完整詳細版，含整套教程）

相關文章