想成為不禿頭的資料工程師!你得擁有這樣一份修煉指南

xyz藍月發表於2019-01-02

也許想要從事資料研究領域的你,一直不太清楚資料工程師和資料科學家之間的區別,甚至不少人可能覺得這就是一回事兒。如果你真的這麼想,那就大錯特錯啦!這兩種職位的差異如今正在逐步加大,如果你不能深入地瞭解異同之處,那未來等著你去踩的雷絕對不在少數。這篇文章,不得不讀!

想成為不禿頭的資料工程師!你得擁有這樣一份修煉指南

在這裡我還是要推薦下我自己建的大資料學習交流qq裙: 458345782 , 裙 裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴

資料工程師的工作技術性很強。他們負責設計和維護資料系統架構,這其中涵蓋了從基礎設施分析到資料倉儲等眾多概念。資料工程師需要對常用指令碼語言有深入的理解,並透過利用和改進資料分析系統,穩步提高資料質量和數量。他們還負責建立用以建模、挖掘、驗證和獲取資料的步驟和流程。

據預測,行業內對技術嫻熟的資料工程師的需求量將快速增長。在現代世界,企業、組織需要穩固的資料架構以獲取和儲存資料。當一個企業壯大到需要運用資料科學時,就需要資料工程師了。其結果便是當下對資料工程師的急切需求。

一些企業以為所需的資料工程的技巧和經驗可以在專案中得到學習和積累。而Umbel的資深主管Kevin Safford認為,這樣想通常都是錯的。他補充道:“如果沒有具體地認真學習,實實在在地去構建資料管道、資料管理系統、資料分析以及編寫所有的中間程式碼,使資料可用、可訪問並確保其正確,並確保分析的正確性——如果你沒有這些經驗,你可能就會以為這些東西慢慢就能學會。我見過很多人都這樣想。他們多數都是錯的,錯的還都一樣。”

想成為不禿頭的資料工程師!你得擁有這樣一份修煉指南

資料工程師vs資料科學家

資料工程師和資料科學家的技能和責任常常重合,然而這兩種職位的差異卻在逐步加大。


資料科學家側重將大資料轉化為商業智慧,而資料工程師更多地在為資料生成建設資料架構和基礎設施。資料科學家的工作環境和基礎設施需要資料工程師來創造。


資料科學家更注重與基礎設施的互動,而不是對其進行建設和管理,其責任還包括把原始資料轉化為有用、可理解、可執行的資訊。資料科學家研究大資料,而資料工程師研究資料基礎設施和資料基礎。

資料基礎

想成為不禿頭的資料工程師!你得擁有這樣一份修煉指南


資料基礎支撐所有形式的報告和分析。資料工程師的目標便是提供可信、完整且最新的資料以支援報告和分析。穩固的資料基礎將使企業受益巨大,使其更高效地行動和決策。其益處包括:

增加組織的交流與合作

資料的一站式購買

儲存記錄的單一版本

支援企業內資訊理解共識的達成


沒有高效的資料基礎,企業組織的安全風險會增高,組織內部也會變得低效。不牢固的資料基礎對一個問題會產生多個答案,也不足以支撐智慧商業決策。

大資料工程技能

想成為不禿頭的資料工程師!你得擁有這樣一份修煉指南


資料工程師需要對資料庫管理有很好理解,包括深入瞭解結構化查詢語言(SQL)。它們需要建設基礎設施、工具、框架和服務。一些人認為資料工程更加偏向軟體工程和應用程式研發而不是資料科學。其他有用技能包括:

Apache Hadoop, Hive, MapReduce和Hbase的使用經驗。

機器學習(ML)是資料科學家的研究重點,但對其的一些瞭解對資料工程也很重要。ML和大資料聯絡緊密。(ML簡化了大資料的處理流程,提供處理大資料的技術並使其合理化。)

程式碼知識絕對是加分項。熟悉 C/C++, Java, Python, Perl, Golang或其他語言會很有用。掌握Linux, UNIX和Solaris 也很有幫助,因為這些是作業系統功能與硬體的根源。

對資料工程師來說,ETL(資料抽取、轉換和載入)經驗是必須的。ETL是從源系統提取資料並將其儲存在資料倉儲的資料倉儲建設過程。熟悉Segment或Oracle Warehouse Builder等ETL工具和Panoply或Redshift等資料儲存解決方案是很有用的。 

想成為不禿頭的資料工程師!你得擁有這樣一份修煉指南

ETL(資料抽取、轉換和載入)


計算機領域中,ETL被用於資料庫和倉庫構建。資料抽取、轉換和載入在二十世紀七十年代開始盛行。資料抽取指的是從同構和異構資料來源中提取資料。資料轉換是說資料為便於儲存(之後被研究和分析),被轉化成合適的結構或形式。資料裝載是指把資料下載並轉移到資料集市、資料儲存區或資料倉儲的過程。


設計完善的ETL系統可以從源系統提取資料並保證資料一致性與質量標準。還能以預備演示的形式傳輸資料,允許開發人員開發應用程式,而終端使用者則決定其價值。


傳統上,ETL系統整合來自應用程式、不同供應商和計算機硬體的資料。含有原始資料的獨立系統常被不同的人操作和控制。比如,工資記賬系統的管理者可能會把銷售和採購的資料結合起來。

想成為不禿頭的資料工程師!你得擁有這樣一份修煉指南

資料倉儲


資料倉儲被用來儲存、彙報和分析資料。對於現代商業智慧,它的發展很重要。資料倉儲集中儲存一個或多個來源的整合資料,它們同時儲存當前資料和歷史資料,可用於開發分析報表。


沒有資料倉儲的話(或其更新的結構副本資料湖),大資料及任何資料科學相關的加工處理會變得非常貴或難以規模化。沒有精心設計的資料倉儲,分析者研究相同問題很容易得到不同結果。或在研究成品資料庫(沒有資料倉儲的情況下)無意間導致延遲或執行中斷。

成為資料工程師

想成為不禿頭的資料工程師!你得擁有這樣一份修煉指南

大致上來說,成為資料工程師要取得資訊科技或電腦科學學位證照並有其他相關培訓。由於每種工作環境的要求越來越個人化,資料工程教學也更加靈活。


你的學位和專業訓練很重要,但還不夠。額外證照也很有價值,有用的包括:


CCP資料工程師認證考試(Cloudera認證資料工程師證照)——提供了ETL工具和分析學的經驗證明。

谷歌的證照——證明熟悉基礎資料工程技能。

IBM認證資料工程師(大資料)——傳達的是具備大資料應用的工作經驗。


輔助認證同樣可行。比如MCSE(微軟認證解決方案專家)包含了很多主題,對特定主題還有附加認證,包括MCSE:資料管理和分析學;MCSA(微軟認證系統管理員):商業智慧報表;和MCSA:微軟雲平臺。此外,一些資料行業活動也能夠提供很棒的培訓和教學資源(同時提供進入網際網路的良好機會)。還有很多網路課程,能根據具體的情況提供有效培訓。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69903766/viewspace-2287207/,如需轉載,請註明出處,否則將追究法律責任。

相關文章