未來,對熟練的大資料工程師的需求將急速增長。現實的情況是這樣的,無論公司屬於哪個行業,要想在當今競爭激烈的市場環境中取得成功,需要一個強大的軟體架構用來儲存和訪問公司資料,最好從公司創立一開始就要搭建它。
在如今有時候有資料的地方就叫大資料,這未免有些誇張,在本文中統稱為資料工程師和資料科學家。
先了解一下,資料工程師究竟做什麼事?一個人怎麼樣成為資料工程師?我們將討論這個有趣的領域以及如何成為資料工程師。
資料工程師都做什麼?
資料工程師負責建立和維護分析基礎架構,該基礎架構幾乎可以支援資料世界中的所有其他功能。他們負責大資料架構的開發、構建、維護和測試,例如資料庫和大資料處理系統。大資料工程師還負責建立用於建模,挖掘,獲取和驗證資料集合等流程。
因此,資料工程師需要掌握通用指令碼語言和工具,利用和改進資料分析系統,不斷提高資料數量和質量。
資料工程師與資料科學家有何區別
雖然在技能和角色方面存在一定程度的重疊,但這兩個職位正日益分化為不同的角色。
資料科學家更關注與資料基礎設施的互動,而不是去建立和維護資料基礎設施。通常負責進行市場和業務運營研究,以確定趨勢和關係,資料科學家用各種複雜的機器和方法與資料進行互動並對其採取行動。
資料科學家通常精通機器學習和高階資料建模,因為他們希望藉助高階數學模型和演算法將原始資料轉化為可操作的,可理解的內容。這些資訊通常用作分析來源,以告訴決策者“更大的圖景”。
那麼是什麼讓資料科學家與資料工程師不同呢?兩者主要區別在目標焦點。資料工程師更專注於構建用於資料生成和資料基礎架構; 資料科學家專注於對生成的資料進行數學和統計分析。
資料工程師的關鍵技能
下面介紹資料工程師所需的幾項關鍵技能。
1.大資料架構的工具與元件
資料工程師更關注分析基礎架構,因此所需的大部分技能都是以架構為中心的。
2.深入瞭解SQL和其它資料庫解決方案
資料工程師需要熟悉資料庫管理系統,深入瞭解SQL至關重要。同樣其它資料庫解決方案,例如Cassandra或BigTable也須熟悉,因為不是每個資料庫都是由可識別的標準來構建。
3.資料倉儲和ETL工具
資料倉儲和ETL經驗對於資料工程師至關重要。像Redshift或Panoply這樣的資料倉儲解決方案,以及ETL工具,比如StitchData或Segment都非常有用。此外,資料儲存和資料檢索經驗同樣重要,因為處理的資料量是個天文數字。
4.基於Hadoop的分析(HBase,Hive,MapReduce等)
對基於Apache Hadoop的分析有深刻理解是這個領域的一個非常必要的需求,一般情況下HBase,Hive和MapReduce的知識儲存是必需的。
5.編碼
說到解決方案,編碼與開發能力是一個重要的優點(這也是許多職位的要求),你要熟悉Python,C/C++,Java,Perl,Golang或其它語言,這會非常有價值。
6.機器學習
雖然資料工程師主要關注的是資料科學,但對資料處理技術的理解會加分,比如一些統計分析知識和基礎資料建模。
機器學習已經成為標準資料科學,該領域的知識可以幫我們構建同類產品的解決方案。這種知識還有一個好處,就是讓你在這個領域極具市場價值,因為在這種情況下能夠“戴上兩頂帽子”會讓你成為一個更強大的工具。
7.多種作業系統
最後,需要我們對Unix,Linux和Solaris系統有深入瞭解,許多數學工具基於這些作業系統,因為它們有Windows和Mac系統功能沒有的訪問許可權和特殊硬體需求。
如何成為資料工程師?
與其他職業相比,資料工程師需要用更復雜的學習方法。資料工程師通常有電腦科學技術相關學位會更好,然後再進一步學習供應商特定的認證計劃和培訓課程。
計算機相關學位雖然重要,但只是故事的一部分,獲得適合的認證可能非常有價值,市場上也有一些大資料工程師專門認證,如下:
Google認證專家 – 資料工程。該認證表明學生熟悉資料工程原理,可以作為該領域的助理或專業人員。
IBM認證資料工程師 – 大資料。此認證更側重於資料工程技能集的大資料特定應用,而不是一般技能,這被許多人視為黃金標準。
Cloudera的CCP資料工程師:該認證針對Cloudera解決方案,體現學生在ETL工具和分析方面的經驗。
二級技能認證,例如MCSE(微軟認證解決方案專家),涵蓋更廣泛的主題,但具有特定的子認證,如MCSE:資料管理與分析。
當然,線上教育平臺提供該領域的重要培訓,Udemy提供了資料工程眾多的課程和資料科學,其他如EDX和Memrise也提供了類似課程,DataCamp專注於資料科學和工程,Galvanize的品類則更為廣泛。
小結
雖然這些資料解決方案可以幫助您踏進大資料工程領域,雖然它們有分發或授予認證,但只是提供證照或文憑。雖然一般學習夠了,但它們不能被認視為實際認證或實踐的替代品。
希望本文能夠給大家闡明資料工程師所需的特定知識,技能和要求。這個領域正在迅速發展,但它也充滿了挑戰與險阻。在工作中通過適當的認證填補技能組合的空白,實現最好學習的關鍵一步。
編譯:勇哥
來源:https://dzone.com/articles/how-to-become-a-data-engineer
更多閱讀: