大資料學習的必要性，讓你走向時代前沿！

金羅老師發表於2019-03-08

原文網址 : http://blog.itpub.net/31561003/viewspace-2637908/

大資料及人工智慧可謂是目前最熱門的行業，從走在前沿的科技公司，到努力創新的傳統行業，幾乎都想把握這個新“風口”。一部分學校也走上了大資料的道路。

在這裡還是要推薦下我自己建的大資料學習交流群:199427210，群裡都是學大資料開發的，如果你正在學習高大上大資料，小編歡迎你加入,大家都是軟體開發黨，不定期分享乾貨（只有大資料軟體開發相關的），包括我自己整理的一份最新的大資料進階資料和高階開發教程，歡迎進階中和進想深入大資料的小夥伴加入。

大資料路線

　java(Java se,javaweb)
　　Linux(shell,高併發架構,lucene,solr)
　　Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)
　　機器學習(R,mahout)
　　Storm(Storm,kafka,redis)
　　Spark(scala,spark,spark core,spark sql,spark streaming,spark mllib,spark graphx)
　　Python(python,spark python)
　　雲端計算平臺(docker,kvm,openstack)

　　名詞解釋

　　一、Linux
　　lucene：全文檢索引擎的架構
　　solr：基於lucene的全文搜尋伺服器，實現了可配置、可擴充套件並對查詢效能進行了優化，並且提供了一個完善的功能管理介面。

　　二、Hadoop
　　HDFS：分散式儲存系統，包含NameNode，DataNode。NameNode：後設資料，DataNode。DataNode：存數資料。
　　yarn：可以理解為MapReduce的協調機制，本質就是Hadoop的處理分析機制，分為ResourceManager NodeManager。
　　MapReduce：軟體框架，編寫程式。
　　Hive：資料倉儲可以用SQL查詢，可以執行Map/Reduce程式。用來計算趨勢或者網站日誌，不應用於實時查詢，需要很長時間返回結果。
　　HBase：資料庫。非常適合用來做大資料的實時查詢。Facebook用Hbase儲存訊息資料並進行訊息實時的分析
　　ZooKeeper：針對大型分散式的可靠性協調系統。Hadoop的分散式同步等靠Zookeeper實現，例如多個NameNode，active standby切換。
　　Sqoop：資料庫相互轉移，關係型資料庫和HDFS相互轉移
　　Mahout：可擴充套件的機器學習和資料探勘庫。用來做推薦挖掘，聚集，分類，頻繁項集挖掘。
　　Chukwa：開源收集系統，監視大型分散式系統，建立在HDFS和Map/Reduce框架之上。顯示、監視、分析結果。
　　Ambari：用於配置、管理和監視Hadoop叢集，基於Web，介面友好。

　　二、Cloudera
　　Cloudera Manager：管理監控診斷整合
　　Cloudera CDH：(Cloudera's Distribution，including Apache Hadoop) Cloudera對Hadoop做了相應的改變，發行版本稱為CDH。
　　Cloudera Flume：日誌收集系統，支援在日誌系統中定製各類資料傳送方，用來收集資料。
　　Cloudera Impala：對儲存在Apache Hadoop的HDFS，HBase的資料提供直接查詢互動的SQL。
　　Cloudera hue： web管理器，包括hue ui，hui server，hui db。hue提供所有CDH元件的shell介面的介面，可以在hue編寫mr。

　　三、機器學習/R
　　R：用於統計分析、繪圖的語言和操作環境，目前有Hadoop-R
　　mahout：提供可擴充套件的機器學習領域經典演算法的實現，包括聚類、分類、推薦過濾、頻繁子項挖掘等，且可通過Hadoop擴充套件到雲中。

　　四、storm
　　Storm：分散式，容錯的實時流式計算系統，可以用作實時分析，線上機器學習，資訊流處理，連續性計算，分散式RPC，實時處理訊息並更新資料庫。
　　Kafka：高吞吐量的分散式釋出訂閱訊息系統，可以處理消費者規模的網站中的所有動作流資料（瀏覽，搜尋等）。相對Hadoop的日誌資料和離線分析，可以實現實時處理。目前通過Hadoop的並行載入機制來統一線上和離線的訊息處理
　　Redis：由c語言編寫，支援網路、可基於記憶體亦可持久化的日誌型、key-value型資料庫。

　　五、Spark
　　Scala：一種類似java的完全物件導向的程式語言。
　　jblas：一個快速的線性代數庫（JAVA）。基於BLAS與LAPACK，矩陣計算實際的行業標準，並使用先進的基礎設施等所有的計算程式的ATLAS藝術的實現，使其非常快。

　　Spark： Spark是在Scala語言中實現的類似於Hadoop MapReduce的通用並行框架，除了Hadoop MapReduce所具有的優點，但不同於MapReduce的是job中間輸出結果可以儲存在記憶體中，從而不需要讀寫HDFS，因此Spark能更好的適用於資料探勘與機器學習等需要迭代的MapReduce演算法。可以和Hadoop檔案系統並行運作，用過Mesos的第三方叢集框架可以支援此行為。
　　Spark SQL：作為Apache Spark大資料框架的一部分,可用於結構化資料處理並可以執行類似SQL的Spark資料查詢
　　Spark Streaming：一種構建在Spark上的實時計算框架，擴充套件了Spark處理大資料流式資料的能力。
　　Spark MLlib： MLlib是Spark是常用的機器學習演算法的實現庫，目前(2014.05)支援二元分類，迴歸，聚類以及協同過濾。同時也包括一個底層的梯度下降優化基礎演算法。MLlib以來jblas線性代數庫，jblas本身以來遠端的Fortran程式。
　　Spark GraphX： GraphX是Spark中用於圖和圖平行計算的API，可以在Spark之上提供一站式資料解決方案，可以方便且高效地完成圖計算的一整套流水作業。

　　Fortran：最早出現的計算機高階程式設計語言，廣泛應用於科學和工程計算領域。

　　BLAS：基礎線性代數子程式庫，擁有大量已經編寫好的關於線性代數運算的程式。
　　LAPACK：著名的公開軟體，包含了求解科學與工程計算中最常見的數值線性代數問題，如求解線性方程組、線性最小二乘問題、特徵值問題和奇異值問題等。
　　ATLAS： BLAS線性演算法庫的優化版本。
　　Spark Python： Spark是由scala語言編寫的，但是為了推廣和相容，提供了java和python介面。

　　六、Python
　　Python: 一種物件導向的、解釋型計算機程式設計語言。

　　七、雲端計算平臺
　　Docker：開源的應用容器引擎
　　kvm： (Keyboard Video Mouse)
　　openstack：開源的雲端計算管理平臺專案

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31561003/viewspace-2637908/，如需轉載，請註明出處，否則將追究法律責任。

日媒：世界盃也走向“比拼”大資料的時代
2018-06-19
大資料
大資料引領我們走向資料智慧化時代
2019-04-23
大資料
大資料時代，從零學習資料思維
2018-09-06
大資料
大資料學習路線圖讓你精準掌握大資料技術學習
2019-07-08
大資料
大資料時代，再不學習就OUT了
2019-01-05
大資料
現代資料棧是如何走向實時化的?
2022-03-22
大資料時代的資料治理！
2023-12-14
大資料
大資料時代之你不得不知道的大資料概念
2019-07-02
大資料
大咖論道資料透明度（Transparency）：後疫情時代如何走向資料驅動？
2020-07-15
大資料丨獨家內部教材，讓你掌握前沿技術演算法
2022-10-24
大資料演算法
雲資料庫時代，DBA將走向何方？-v4
2022-11-24
資料庫
大資料學習|小白學習大資料需要滿足這六個條件你就能學好大資料
2018-09-18
大資料
大資料時代來臨
2020-12-11
大資料
圖資料庫——大資料時代的高鐵
2021-09-09
資料庫大資料
構建大資料平臺的必要性
2021-10-14
大資料
大資料時代下，App資料隱私安全你真的瞭解麼？
2022-03-08
大資料APP
大資料的儲存時代，你需要這款價效比高的NAS！
2021-10-08
大資料
大資料入門到精通課程學習,大資料學習，你還得知道這些
2019-12-31
大資料
2019年資料時代，你瞭解大資料未來的發展趨勢嗎？
2019-05-04
大資料
資料築基，西湖大學加速國際前沿學科研究
2022-08-12
後深度學習時代，計算機視覺技術如何走向未來？
2019-10-24
深度學習計算機視覺
大資料學習資料
2022-11-22
大資料
Spring Cloud在Netflix後時代的走向？
2019-04-10
SpringCloud
想學習大資料？這才是完整的大資料學習體系
2019-05-11
大資料
國產化大趨勢下學習linux的必要性
2023-03-23
Linux
大資料學習
2019-01-08
大資料
大資料的系統學習：大資料學習的三個階段概述
2019-02-22
大資料
大資料學習：怎樣進行大資料的入門級學習？
2019-10-11
大資料
爬蟲在大資料時代的應用
2023-04-27
爬蟲大資料
ArgoDB如何取得大資料時代的金羊毛?
2021-01-13
Go大資料
大資料時代的六西格瑪管理
2021-01-20
大資料
幾句話讓你讀懂大資料的就業方向及前景，千鋒大資料教程影片資料限時送！
2020-03-25
大資料就業
大資料時代，我們如此赤裸
2018-07-26
大資料
0基礎學習大資料你需要了解的學習路線和方向
2019-01-27
大資料
5G時代，企業逐漸走向無紙化辦公，你習慣了嗎？
2021-04-27
四說大資料時代“神話”：從大資料到深資料
2019-04-12
大資料
大資料如何學習，大資料工程師學習經驗分享
2018-11-06
大資料工程師
物件代理資料庫：大資料時代下的應需之作
2018-08-15
物件資料庫大資料

大資料學習的必要性，讓你走向時代前沿！

相關文章