大概兩年前寫過同樣標題的一篇文章,對於這個問題感興趣的人不少,後臺收到不少同學的提問,所以準備細緻地解答一下這些問題,希望能解決掉大家90%的疑問。下次再看到相關的提問我會理直氣壯地把這篇文章的連結甩你臉上。但是可能又會有同學有疑問了,那剩下10%的疑問怎麼辦?可以關注我的公眾號【老懞大資料】。
開發語言
言歸正傳,對於新手來說,老是會有類似這樣的問題,“做大資料需要學Java嗎?”“不會Java可以嗎”“需要學到什麼程度”...我的回答是“需要!”,“不可以”,“精通”。當然對於一個新手來說讓你精通Java是不可能的,寫Java沒個十年半載真的不敢說精通,但是你得走在通往“精通”的這條路上,精通程度和你拿到的錢是成正比的。
其實我想表達的是,不要有僥倖心理,不要覺得大資料就是搭搭環境,用用元件,大資料是正兒八經需要寫程式碼做開發的,而且對程式碼能力的要求是比較高的,為什麼這麼說,因為大資料生態圈有很多優秀的開源元件,如果你的 Java 是半吊子的水平那我可以很明確地說,你能看得懂的程式碼可能都不超過100行。不信的話可以找個開源專案看看。
Java 可以說是大資料開發的第一語言,至少當前還是的,雖然垃圾回收的問題經常被大家詬病,但是有龐大的生態圈在呢,一時半會都還會是 Java 的天下。“Java 要學到什麼程度?”JavaSE 必須掌握,JVM,多執行緒之類的都是基礎,面試必問系列;JavaEE 必須熟悉,丟個Java web專案給你,不求你把底層瞭解地多麼透徹,但是必須得會寫,因為大資料開發實際工作中少不了寫介面。
SQL。如果說有一門語言可能會撼動 Java 一哥的位置的話,那絕對是 SQL,雖然 SQL 和 Java 都算不上是一個層面上的語言,但是它太重要了,太多人的 SQL 寫得太渣了,太多人寫 SQL 的時候不考慮底層優化了,要重視呀兄弟們,不是增刪查改就完事了的。有小夥伴問過要怎麼提升寫 SQL 的能力?孰能生巧,多寫,多瞭解底層原理,多思考優化的方案。
Scala 要學到什麼程度?語法得懂,除了基本的,還有什麼隱式轉換,什麼柯里化,什麼閉包等等。學Scala 最大的目的就是寫 Spark,Spark 在大資料生態圈的存在感太強了,學習一門語言最好的方式就是實踐,多寫寫 Spark 相關的專案,或者去看看 Spark 的原始碼。
shell 也是必不可少的,大資料開發其實一般都會承擔起大資料叢集的運維工作,說到運維,shell的重要性應該不用我多說了吧。
語言是程式設計師的兵器,兵器肯定是越鋒利越好,種類越多越好,弓箭,刀,劍,盾,都有它們各自使用的場景。程式設計師不要有僥倖心理,不要得過且過,對於技術來說要知其然且知其所以然,如果你還達不到這個地步,那一定要走在這個方向上。
大資料技術元件
上面這張讓人犯密集恐懼症的東西是什麼?是2019年據不完全統計的大資料產品。
是的,人人都知道,大資料技術實在是太多了,變化也太快了,新技術層出不窮,作為一個新人在面對這些技術的時候,常有的一個狀態就是懵,所以新人加我微信最常見的問題就是怎麼學?這個要不要學?那個需要學到什麼程度?等等。
哪些要學?
hadoop基礎全家桶,hdfs,yarn,hbase,hive,zookeeper等,再加個 spark 全家桶,以及流式計算全家桶kafka,flink,redis。
如果真的是認認真真吃透了上面的那些技能的話,那我能保證你已經基本上能解決90%的大資料問題,那剩下的10%怎麼辦?這個問題好像有點熟悉,當然還是繼續學,但是你有了這解決90%問題的能力,剩下的10%的問題其實也不是什麼大問題了。
怎麼學?
從區域性到整體。說得通俗一點就是要腳踏實地,不要老是飄在天上,因為在天上看到的是一整個生態,你當然會看到有很多很多東西,但是如果你不走近看的話你是不會知道,其實有很多東西都是類似的,經典的理論就那麼幾個,大家的系統很多都是照著這些理論去實現的,只是實現的方式會有些不一樣,所以同型別的產品可能場景會稍有不同,但是架構是非常類似的,熟悉了之後你會發現,分散式系統萬變不離其宗。
簡單地說,從一個入手,比如儲存,舉個例子可以從HBase入手,因為它算是一個比較經典的分散式儲存引擎,《Big Table》也是非常經典的一篇paper,HBase裡面存在的 LSM-Tree,Bloom Filter,壓縮,分割槽等等原理和概念在很多分散式儲存中也是適用的。
再比如,計算,mr很經典,但是我還是建議直接從Spark入手,它的很多設計是基於mr又超過了mr的,而且 spark 生態系統非常的全能,能幹的事情非常多,先學Spark Core,搞懂程式設計模型,瞭解大概原理,接著學SparkSQL,瞭解catalyst等,再接著就是SparkStreaming,以及後面的StructedStreaming,學到到這裡,如果學得足夠有深度,Flink也是可以輕鬆拿下的了,二者都大量借鑑了《DataFlow》這篇paper的理論,還是那句話,萬變不離其宗。
還有很多的其他的例子,比如排程系統 AirFlow,Azkaban 以及最近挺火的 DolphinScheduler,本質上的實現都是類似的,只是在各自都增加了不同的功能來滿足使用者的需求。
還有資料視覺化等等很多的例子就部一一列舉了。
說這麼多目的只有一個,腳踏實地一步一步走,程式猿這個工種還是很依賴經驗的,孰能生巧是沒有錯的。
要學到什麼程度?
我再強調一遍大資料平臺的開發人員不是簡簡單單會個搭建和使用就可以的了,這是最基礎和淺顯的內容,所以平時有些小夥伴貼一大堆報錯資訊給我,問我安裝怎麼報錯了,怎麼這個功能用不了了,這些問題基本上我都不會回答,除非我那天真的我心情非常好。因為如果你連這些在google一搜一大把的問題都沒法解決的話,你覺得你是不是應該重新思考一下自己的職業選擇。
回到正題,要學到什麼程度,取決於你現在什麼水平,如果你剛入門,你要學會理解場景,搭建,使用;熟練了之後就要理解原理,懂得調優;再接下來,需要你主動去發現應用中的問題,以及找解決方案來解決問題,這個時候就不僅限於眼前的某一種技術了,需要有一個大局觀,如何培養你的這種大局觀呢,多混社群多和優秀的同行交流,多看原始碼多學習優秀的開源專案。
當然最好是能夠成為優秀開源專案的 contributor 甚至 committer,這無論是在跳槽的面試中還是在晉升的述職中都是非常亮眼的加分項。
擁抱開源
學好語言的目的是為了寫程式碼,寫優秀的程式碼,那麼如何能寫出優秀的程式碼呢,人類最初學習的過程是從模仿開始的。
上面都提到了原始碼,為什麼我要反覆提這個問題呢,大資料的技術逐漸成熟,大資料的下半場絕對不會像前幾年一樣會搭個Hadoop,會寫個Spark就能拿比較高的薪資,高薪大資料平臺方向的程式設計師未來的趨勢一定能夠是搗鼓各種原始碼進行二次開發的。
都說一入開源深似海,那為什麼還是有那麼多人往坑裡跳呢,坑裡有好處呀。
首先開源的目的就是能給更多的人使用這個產品,同時能讓開發者參與開發,讓使用者提出需求,這對產品而言是有積極推進作用的,但是,開發者核心團隊會篩選使用者的需求,因為開源的東西考慮的是大多數人通用的需求,不可能為個人定製,所以它是不能適應所有的場景,而業務是千變萬化的,需求方是神通廣大的,他們總是能夠發掘一些刁鑽的需求,總是會“想方設法”地為難你,如果你經常被難倒的話,N+1會在不遠處向你招手。而如果你能夠改動一下原始碼,讓這個東西滿足你的需求,不是很美好嗎?
參與開源專案的建設是提升程式設計師個人水平的一個很好的方式,通過一些頭部的開源專案,你可以看到業界優秀的程式設計師是怎麼合理設計架構的,是怎麼寫出高質量程式碼的,是怎麼實現刁鑽需求的。人總是在模仿中不斷成長的,你的水平怎麼樣很大一部分取決於你接觸的人水平怎麼樣,這也是大廠經歷可以給簡歷加分的原因,沒有大廠經歷怎麼辦呢,送你四個字,“入開源坑”。
大部分人工作說到底都是為了錢,不晉升哪來的錢。造輪子,二次開發都是晉升很好的資本,不然阿里在github也不會有那麼多KPI產物了。你可以看不慣,但是沒辦法,這就是競爭力,別人都沒有做出來,而你做出來了。
那麼如何入坑呢,先從簡單的開始,最好是能結合公司現在在使用東西,或者潛在需要使用的東西來下手。國外apache的專案一般都是比較高質量的,也要參照一下github上的star個數和活躍度來看,另外沒進入apache的一些專案,比如cloudera,facebook,linkin等這些公司開源的也有很多高質量的大資料專案。
國內的話,阿里也有不少應用非常廣泛的Java專案,比如druid,fastjson,datax,canal等等,可以先從這些下手,先讀懂,然後可以看看 Github 上的 Issues,有沒有和自己遇到的問題類似的,或者有沒有問題是你可以解決的,提個PR,至此,你已經邁出了第一步,一隻腳已經踩進坑裡了。
總而言之,要多讀優秀原始碼,模仿人家寫程式碼的思想。原始碼閱讀相關的內容可能會枯燥乏味,但是一點點堅持下來的話,各方面都會有蛻變的。
還沒有看夠?掃下面的二維碼關注下公眾號吧!