如何學習大資料?

跟大牛學大資料發表於2017-12-05

想要都進入大資料行業的第一步,是先搞清楚大資料究竟有哪些就業方向。

大資料就業崗位

隨著大資料技術在企業界如火如荼的實踐,企業對組建大資料團隊的迫切程度也也來越高,對與大資料相關高階人才的需求也越來越緊迫,但企業對大資料團隊的組建和角色分配方面缺一直有不小的困惑,到底大資料團隊裡應該擁有哪些幾類角色,如何設定崗位?同一類別的角色的專業方向又有哪些分化,不同專業的崗位對技能應該有哪些要求?如何管理大資料團隊成員的職業發展路徑?為此,ChinaHadoop花費了一年時間調研了先進企業內部設立的大資料部門或團隊的組織結構和職能劃分,在此基礎上,首次提出了企業大資料團隊的崗位劃分,專業分類及定義,以及每個崗位所需的技能及培訓,技能考核對應的能力級別,我們將之統稱為”企業大資料人才崗位技能認證體系“。

通過對企業大資料人才崗位進行專業細分,崗位技能認證等級與企業現有技術專業通道形成對應關係,打通員工的職業發展通道,幫助企業逐步完善大資料團隊的組織結構,不斷提高團隊技能,為各崗位及時儲備人才。

大資料團隊的角色分類企業大資料團隊的角色分類主要有三個大類別:大資料開發工程師、大資料運維工程師、大資料架構師。總體而言,我們大資料人才劃分為三個大類:

一、 大資料開發工程師:圍繞大資料系平臺系統級的研發人員, 熟練Hadoop、Spark、Storm等主流大資料平臺的核心框架。深入掌握如何編寫MapReduce的作業及作業流的管理完成對資料的計算,並能夠使用Hadoop提供的通用演算法,

熟練掌握Hadoop整個生態系統的元件如: Yarn,HBase、Hive、Pig等重要元件,能夠實現對平臺監控、輔助運維繫統的開發。通過學習一系列面向開發者的Hadoop、Spark等大資料平臺開發技術,掌握設計開發大資料系統或平臺的工具和技能,能夠從事分散式計算框架如Hadoop、Spark群集環境的部署、開發和管理工作,如效能改進、功能擴充套件、故障分析等。

二、 大資料運維工程師:瞭解Hadoop、Spark、Storm等主流大資料平臺的核心框架,熟悉Hadoop的核心元件:HDFS、MapReduce、Yarn;具備大資料叢集環境的資源配置,如網路要求、硬體配置、系統搭建。熟悉各種大資料平臺的部署方式,叢集搭建,故障診斷、日常維護、效能優化,同時負責平臺上的資料採集、資料清洗、資料儲存,資料維護及優化。熟練使用Flume、Sqoop等工具將外部資料載入進入大資料平臺,通過管理工具分配叢集資源實現多使用者協同使用叢集資源。

三、 大資料架構師:這一角色的要求是綜合型的,對各種開源和商用的大資料系統平臺和產品的特點非常熟悉,能基於Hadoop、Spark、 NoSQL、 Storm流式計算、分散式儲存等主流大資料技術進行平臺架構設計,負責企業選用軟體產品的技術選型,具體專案中的資料庫設計及實現工作,協助開發人員完成資料庫部分的程式 ,能解決公司軟體產品或者專案開發和運維中與資料庫相關的問題; 及時解決專案開發或產品研發中的技術難題,對設計系統的最終效能和穩定性負責。 崗位能力級別定義:1. 初級:具備基本的大資料技術的基礎知識,可以將其視為大資料認證的初學或者入門等級。2. 高階:大資料認證的高階或者熟練等級,表明該人才具備大資料某一專業方向的基本知識和熟練技能。3. 專家:具有業界公認的專業大資料技術知識和豐富工作經驗。 這裡簡單介紹幾種我認為用的比較多的技術

一、Hadoop 可以說,hadoop幾乎已經是大資料代名詞。無論是是否贊成,hadoop已經是大部分企業的大資料標準。得益於Hadoop生態圈,從現在來看,還沒有什麼技術能夠動搖hadoop的地位。

這一塊可以按照一下內容來學習:

1、Hadoop產生背景 2、Hadoop在大資料、雲端計算中的位置和關係 3、國內外Hadoop應用案例介紹 4、國內Hadoop的就業情況分析及課程大綱介紹 5、分散式系統概述 6、Hadoop生態圈以及各組成部分的簡介

二、分散式檔案系統HDFS HDFS全稱 Hadoop Distributed File System ,它是一個高度容錯性的系統,適合部署在廉價的機器上,同時能提供高吞吐量的資料訪問,非常適合大規模資料集上的應用。為了實現流式讀取檔案系統資料的目的,HDFS放寬了一部分POSIX約束。

1、分散式檔案系統HDFS簡介 2、HDFS的系統組成介紹 3、HDFS的組成部分詳解 4、副本存放策略及路由規則 5、NameNode Federation 6、命令列介面 7、Java介面 8、客戶端與HDFS的資料流講解 9、HDFS的可用性(HA) 三、初級MapReduce 這是你成為Hadoop開發人員的基礎課程。

MapReduce提供了以下的主要功能:

1)資料劃分和計算任務排程:

2)資料/程式碼互定位:

3)系統優化:

4)出錯檢測和恢復:

這種程式設計模型主要用於大規模資料集(大於1TB)的並行運算。

1、如何理解map、reduce計算模型 2、剖析偽分散式下MapReduce作業的執行過程 3、Yarn模型 4、序列化 5、MapReduce的型別與格式 6、MapReduce開發環境搭建 7、MapReduce應用開發 8、熟悉MapReduce演算法原理 四、高階MapReduce 這一塊主要是高階Hadoop開發的技能,都是MapReduce為什麼我要分開寫呢?因為我真的不覺得誰能直接上手就把MapReduce搞得清清楚楚。

1、使用壓縮分隔減少輸入規模 2、利用Combiner減少中間資料 3、編寫Partitioner優化負載均衡 4、如何自定義排序規則 5、如何自定義分組規則 6、MapReduce優化 五、Hadoop叢集與管理 這裡會涉及到一些比較高階的資料庫管理知識,乍看之下都是操作性的內容,但是做成容易,做好非常難。

1、Hadoop叢集的搭建 2、Hadoop叢集的監控 3、Hadoop叢集的管理 4、叢集下執行MapReduce程式 六、ZooKeeper基礎知識 ZooKeeper的目標就是封裝好複雜易出錯的關鍵服務,將簡單易用的介面和效能高效、功能穩定的系統提供給使用者。

1、ZooKeeper體現結構 2、ZooKeeper叢集的安裝 3、操作ZooKeeper 七、HBase基礎知識 HBase – Hadoop Database,是一個高可靠性、高效能、面向列、可伸縮的分散式儲存系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化儲存叢集。

與FUJITSU Cliq等商用大資料產品不同,HBase是Google Bigtable的開源實現,類似Google Bigtable利用GFS作為其檔案儲存系統,HBase利用Hadoop HDFS作為其檔案儲存系統;Google執行MapReduce來處理Bigtable中的海量資料,HBase同樣利用Hadoop MapReduce來處理HBase中的海量資料;Google Bigtable利用 Chubby作為協同服務,HBase利用Zookeeper作為對應。

1、HBase定義 2、HBase與RDBMS的對比 3、資料模型 4、系統架構 5、HBase上的MapReduce 6、表的設計 八、HBase叢集及其管理 1、叢集的搭建過程 2、叢集的監控 3、叢集的管理 十、Pig基礎知識 Pig是進行Hadoop計算的另一種框架,是一個高階過程語言,適合於使用 Hadoop 和 MapReduce 平臺來查詢大型半結構化資料集。通過允許對分散式資料集進行類似 SQL 的查詢,Pig 可以簡化 Hadoop 的使用。

1、Pig概述 2、安裝Pig 3、使用Pig完成手機流量統計業務 十一、Hive hive是基於Hadoop的一個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行執行。 其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用。

1、資料倉儲基礎知識 2、Hive定義 3、Hive體系結構簡介 4、Hive叢集 5、客戶端簡介 6、HiveQL定義 7、HiveQL與SQL的比較 8、資料型別 9、表與表分割槽概念 10、表的操作與CLI客戶端 11、資料匯入與CLI客戶端 12、查詢資料與CLI客戶端 13、資料的連線與CLI客戶端 14、使用者自定義函式(UDF) 十二、Sqoop Sqoop(發音:skup)是一款開源的工具,主要用於在Hadoop(Hive)與傳統的資料庫(mysql、postgresql...)間進行資料的傳遞,可以將一個關係型資料庫(例如 : MySQL ,Oracle ,Postgres等)中的資料導進到Hadoop的HDFS中,也可以將HDFS的資料導進到關係型資料庫中。

1、配置Sqoop 2、使用Sqoop把資料從MySQL匯入到HDFS中 3、使用Sqoop把資料從HDFS匯出到MySQL中 十三、Storm Storm為分散式實時計算提供了一組通用原語,可被用於“流處理”之中,實時處理訊息並更新資料庫。這是管理佇列及工作者叢集的另一種方式。 Storm也可被用於“連續計算”(continuous computation),對資料流做連續查詢,在計算時就將結果以流的形式輸出給使用者。它還可被用於“分散式RPC”,以並行的方式執行昂貴的運算。

1、Storm基礎知識:包括Storm的基本概念和Storm應用 場景,體系結構與基本原理,Storm和Hadoop的對比 2、Storm叢集搭建:詳細講述Storm叢集的安裝和安裝時常見問題 3、Storm元件介紹: spout、bolt、stream groupings等 4、Storm訊息可靠性:訊息失敗的重發 5、Hadoop 2.0和Storm的整合:Storm on YARN 6、Storm程式設計實戰

如何學習大資料?

相關文章