從BAT大資料工程師那裡總結的大資料學習方法

大資料學習發表於2019-05-23

認識大資料

什麼是大資料?可能有人會說寫字樓的所有人的資料資訊就是個大資料。NO!這裡的資料只能說比較大,但卻不能稱之為大資料。百度百科上給出了很明確的解釋“大資料(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。”

 

大資料有五個特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。其中Volume就是普遍認為的資料足夠大,因此資料大並不能說就是大資料,話句話說資料大隻是大資料其中的一個特點。

大資料技術的戰略意義不在於掌握龐大的資料資訊,而在於對這些含有意義的資料進行專業化處理。換而言之,如果把大資料比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對資料的“加工能力”,通過“加工”實現資料的“增值”。

現在我們“從相認到相識”,清楚的認識什麼是大資料,如果區分大資料和資料大,是我們學習大資料走的第一步。

怎麼開始學

擁有了“第一磚”後就是你即將選擇師門的時候了,敲開山門的“第二磚”則是學習大資料的基礎,就如同在門派中修煉內功,有助你行走江湖,話不多說我們來看看會涉及到哪些基礎吧!

我這裡準備了一些學習大資料的學習資料,從大資料基礎到專案實戰都有學習資料,需要的話可以加群:834325294 免費領取哦

 

1、 javaSE,EE(SSM)

90%的大資料框架都是java寫的。

如:MongoDB--最受歡迎的,跨平臺的,面向文件的資料庫。 Hadoop--用Java編寫的開源軟體框架,用於分散式儲存,並對非常大的資料集進行分散式處理。

Spark --Apache Software Foundation中最活躍的專案,是一個開源叢集計算框架。

Hbase--開放原始碼,非關係型,分散式資料庫,採用Google的BigTable建模,用Java編寫,並在HDFS上執行。

2、就是大資料裡面的基礎和工具

要想建一座穩固的高樓大廈基礎是必須打好的,掌握好Linux必備知識,熟悉python的使用與爬蟲的編寫搭建Hadoop(CHD)基礎,為學習大資料技術打好基礎

進階技術

1、大資料離線分析

掌握大資料核心基礎元件:HDFS,MapReduce及yarn。掌握MapReduce程式設計思想及通用大資料計算平臺:“spark”

可以通過實戰專案熟悉使用者行為分析業務的背景,掌握離線資料處理的流程(使用者分析專案是離線處理經典的專案)、架構及相關技術的運用。

2、、大資料實時計算

掌握實時處理主流技術元件:kafka,spark streaming,flink,storm,hbase

再通過實時交易監控專案來融合自己學習的

總結:希望能對大資料有興趣的朋友一種啟發式作用,方法的學習還需要在有興趣的基礎上刻苦專研、融會貫通。

 

相關文章