大資料學習,涉及的知識點
大資料技術都包括哪些,如何學習大資料技術。 首先我們要了解 Java 語言和 Linux 作業系統,這兩個是學習大資料的基礎,學習的順序不分前後。
很多初學者,對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大資料學習qq群:199427210,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系
Java :只要瞭解一些基礎即可,做大資料不需要很深的 Java 技術,即使不懂 Java 也可以學習大資料。
Linux :因為大資料相關軟體都是在 Linux 上執行的,所以 Linux 要學習的紮實一些,學好 Linux 對你快速掌握大資料相關技術會有很大的幫助,能讓你更好的理解 hadoop 、 hive 、 hbase 、 spark 等大資料軟體的執行環境和網路環境配置,能少踩很多坑,學會 shell 就能看懂指令碼這樣能更容易理解和配置大資料叢集。還能讓你對以後新出的大資料技術學習起來更快。
好說完基礎了,再說說還需要學習哪些大資料技術,可以按我寫的順序學下去。
Hadoop
:這是現在流行的大資料處理平臺幾乎已經成為大資料的代名詞,所以這個是必學的。
Hadoop
裡面包括幾個元件
HDFS
、
MapReduce
和
YARN
,
HDFS
是儲存資料的地方就像我們電腦的硬碟一樣檔案都儲存在這個上面,
MapReduce
是對資料進行處理計算的,它有個特點就是不管多大的資料只要給它時間它就能把資料跑完,但是時間可能不是很快所以它叫資料的批處理。
記住學到這裡可以作為你學大資料的一個節點。
Zookeeper
:這是個萬金油,安裝
Hadoop
的
HA
的時候就會用到它,以後的
Hbase
也會用到它。它一般用來存放一些相互協作的資訊,這些資訊比較小一般不會超過
1M
,都是使用它的軟體對它有依賴,對於我們個人來講只需要把它安裝正確,讓它正常的
run
起來就可以了。
Mysql
:我們學習完大資料的處理了,接下來學習學習小資料的處理工具
mysql
資料庫,因為一會裝
hive
的時候要用到,
mysql
需要掌握到什麼層度那
?
你能在
Linux
上把它安裝好,執行起來,會配置簡單的許可權,修改
root
的密碼,建立資料庫。這裡主要的是學習
SQL
的語法,因為
hive
的語法和這個非常相似。
Sqoop
:這個是用於把
Mysql
裡的資料匯入到
Hadoop
裡的。當然你也可以不用這個,直接把
Mysql
資料表匯出成檔案再放到
HDFS
上也是一樣的,當然生產環境中使用要注意
Mysql
的壓力。
Hive
:這個東西對於會
SQL
語法的來說就是神器,它能讓你處理大資料變的很簡單,不會再費勁的編寫
MapReduce
程式。有的人說
Pig
那
?
它和
Pig
差不多掌握一個就可以了。
Oozie
:既然學會
Hive
了,我相信你一定需要這個東西,它可以幫你管理你的
Hive
或者
MapReduce
、
Spark
指令碼,還能檢查你的程式是否執行正確,出錯了給你發報警並能幫你重試程式,最重要的是還能幫你配置任務的依賴關係。我相信你一定會喜歡上它的,不然你看著那一大堆指令碼,和密密麻麻的
crond
是不是有種想屎的感覺。
Hbase
:這是
Hadoop
生態體系中的
NOSQL
資料庫,他的資料是按照
key
和
value
的形式儲存的並且
key
是唯一的,所以它能用來做資料的排重,它與
MYSQL
相比能儲存的資料量大很多。所以他常被用於大資料處理完成之後的儲存目的地。
Kafka
:這是個比較好用的佇列工具,佇列是幹嗎的
?
排隊買票你知道不
?
資料多了同樣也需要排隊處理,這樣與你協作的其它同學不會叫起來,你幹嗎給我這麼多的資料
(
比如好幾百
G
的檔案
)
我怎麼處理得過來,你別怪他因為他不是搞大資料的,你可以跟他講我把資料放在佇列裡你使用的時候一個個拿,這樣他就不在抱怨了馬上灰流流的去最佳化他的程式去了,因為處理不過來就是他的事情。而不是你給的問題。當然我們也可以利用這個工具來做線上實時資料的入庫或入
HDFS
,這時你可以與一個叫
Flume
的工具配合使用,它是專門用來提供對資料進行簡單處理,並寫到各種資料接受方
(
比如
Kafka)
的。
Spark :它是用來彌補基於 MapReduce 處理資料速度上的缺點,它的特點是把資料裝載到記憶體中計算而不是去讀慢的要死進化還特別慢的硬碟。特別適合做迭代運算,所以演算法流們特別稀飯它。它是用 scala 編寫的。 Java 語言或者 Scala 都可以操作它,因為它們都是用 JVM 的。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561003/viewspace-2646054/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 大資料學習路線指南(最全知識點總結)大資料
- 學習大資料需要掌握的知識,需要學習的資料技術大資料
- 學習大資料要從哪些知識點開始著手?大資料
- 學大資料需要掌握的知識,需要學習的資料技術大資料
- 大資料學習四:網路相關知識大資料
- 如何更高效的系統學習大資料方面知識?大資料
- MyBatis知識點學習MyBatis
- Java知識點學習Java
- 2019大資料學習路線指南(最全知識點總結)大資料
- 知識學習綜合三---分散式系統大資料分散式大資料
- Bootstrap 個人學習知識點boot
- jQuery 個人學習知識點jQuery
- 學習記錄 -- 知識點
- java知識點學習圖Java
- 大資料入門到精通,想入行大資料需要學習這些知識大資料
- 大資料工程師需要掌握的知識點大資料工程師
- Java學習知識大綱Java
- Mysql的那些事兒(部分涉及資料庫知識總結)MySql資料庫
- JS 學習個人知識盲點JS
- Vue學習知識點總結Vue
- jquery學習之重要知識點jQuery
- ORACLE資料庫日常維護的九大知識點Oracle資料庫
- MySQL 資料庫基礎知識點複習MySql資料庫
- 資料庫MySQL需要學習基本知識資料庫MySql
- 學習 Laravel 必須理解的知識點Laravel
- 《面試補習》- JVM知識點大梳理面試JVM
- 【大資料】你務必要搞清楚的十大資料探勘知識點大資料
- 大資料的知識體系大資料
- 學習資料庫的基礎知識的書籍資料庫
- PG知識點學習總結圖
- 【java學習】java知識點總結Java
- React學習筆記知識點整理React筆記
- 機器學習vs深度學習及其知識點機器學習深度學習
- R學習-知識點記錄(Temp)
- JVM重要知識點整理和學習JVM
- web前端學習路線,前端開發最全知識點彙總(附學習教程資料)Web前端
- mysql資料庫學習基礎知識整理MySql資料庫
- 有關自定義View的學習知識點View