想成為不禿頭的資料工程師!你得擁有這樣一份修煉指南
也許想要從事資料研究領域的你,一直不太清楚資料工程師和資料科學家之間的區別,甚至不少人可能覺得這就是一回事兒。如果你真的這麼想,那就大錯特錯啦!這兩種職位的差異如今正在逐步加大,如果你不能深入地瞭解異同之處,那未來等著你去踩的雷絕對不在少數。這篇文章,不得不讀!
在這裡我還是要推薦下我自己建的大資料學習交流qq裙:
458345782
, 裙 裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴
資料工程師的工作技術性很強。他們負責設計和維護資料系統架構,這其中涵蓋了從基礎設施分析到資料倉儲等眾多概念。資料工程師需要對常用指令碼語言有深入的理解,並透過利用和改進資料分析系統,穩步提高資料質量和數量。他們還負責建立用以建模、挖掘、驗證和獲取資料的步驟和流程。
據預測,行業內對技術嫻熟的資料工程師的需求量將快速增長。在現代世界,企業、組織需要穩固的資料架構以獲取和儲存資料。當一個企業壯大到需要運用資料科學時,就需要資料工程師了。其結果便是當下對資料工程師的急切需求。
一些企業以為所需的資料工程的技巧和經驗可以在專案中得到學習和積累。而Umbel的資深主管Kevin Safford認為,這樣想通常都是錯的。他補充道:“如果沒有具體地認真學習,實實在在地去構建資料管道、資料管理系統、資料分析以及編寫所有的中間程式碼,使資料可用、可訪問並確保其正確,並確保分析的正確性——如果你沒有這些經驗,你可能就會以為這些東西慢慢就能學會。我見過很多人都這樣想。他們多數都是錯的,錯的還都一樣。”
資料工程師vs資料科學家
資料工程師和資料科學家的技能和責任常常重合,然而這兩種職位的差異卻在逐步加大。
資料科學家側重將大資料轉化為商業智慧,而資料工程師更多地在為資料生成建設資料架構和基礎設施。資料科學家的工作環境和基礎設施需要資料工程師來創造。
資料科學家更注重與基礎設施的互動,而不是對其進行建設和管理,其責任還包括把原始資料轉化為有用、可理解、可執行的資訊。資料科學家研究大資料,而資料工程師研究資料基礎設施和資料基礎。
資料基礎
資料基礎支撐所有形式的報告和分析。資料工程師的目標便是提供可信、完整且最新的資料以支援報告和分析。穩固的資料基礎將使企業受益巨大,使其更高效地行動和決策。其益處包括:
增加組織的交流與合作
資料的一站式購買
儲存記錄的單一版本
支援企業內資訊理解共識的達成
沒有高效的資料基礎,企業組織的安全風險會增高,組織內部也會變得低效。不牢固的資料基礎對一個問題會產生多個答案,也不足以支撐智慧商業決策。
大資料工程技能
資料工程師需要對資料庫管理有很好理解,包括深入瞭解結構化查詢語言(SQL)。它們需要建設基礎設施、工具、框架和服務。一些人認為資料工程更加偏向軟體工程和應用程式研發而不是資料科學。其他有用技能包括:
Apache Hadoop, Hive, MapReduce和Hbase的使用經驗。
機器學習(ML)是資料科學家的研究重點,但對其的一些瞭解對資料工程也很重要。ML和大資料聯絡緊密。(ML簡化了大資料的處理流程,提供處理大資料的技術並使其合理化。)
程式碼知識絕對是加分項。熟悉 C/C++, Java, Python, Perl, Golang或其他語言會很有用。掌握Linux, UNIX和Solaris 也很有幫助,因為這些是作業系統功能與硬體的根源。
對資料工程師來說,ETL(資料抽取、轉換和載入)經驗是必須的。ETL是從源系統提取資料並將其儲存在資料倉儲的資料倉儲建設過程。熟悉Segment或Oracle Warehouse Builder等ETL工具和Panoply或Redshift等資料儲存解決方案是很有用的。
ETL(資料抽取、轉換和載入)
計算機領域中,ETL被用於資料庫和倉庫構建。資料抽取、轉換和載入在二十世紀七十年代開始盛行。資料抽取指的是從同構和異構資料來源中提取資料。資料轉換是說資料為便於儲存(之後被研究和分析),被轉化成合適的結構或形式。資料裝載是指把資料下載並轉移到資料集市、資料儲存區或資料倉儲的過程。
設計完善的ETL系統可以從源系統提取資料並保證資料一致性與質量標準。還能以預備演示的形式傳輸資料,允許開發人員開發應用程式,而終端使用者則決定其價值。
傳統上,ETL系統整合來自應用程式、不同供應商和計算機硬體的資料。含有原始資料的獨立系統常被不同的人操作和控制。比如,工資記賬系統的管理者可能會把銷售和採購的資料結合起來。
資料倉儲
資料倉儲被用來儲存、彙報和分析資料。對於現代商業智慧,它的發展很重要。資料倉儲集中儲存一個或多個來源的整合資料,它們同時儲存當前資料和歷史資料,可用於開發分析報表。
沒有資料倉儲的話(或其更新的結構副本資料湖),大資料及任何資料科學相關的加工處理會變得非常貴或難以規模化。沒有精心設計的資料倉儲,分析者研究相同問題很容易得到不同結果。或在研究成品資料庫(沒有資料倉儲的情況下)無意間導致延遲或執行中斷。
成為資料工程師
大致上來說,成為資料工程師要取得資訊科技或電腦科學學位證照並有其他相關培訓。由於每種工作環境的要求越來越個人化,資料工程教學也更加靈活。
你的學位和專業訓練很重要,但還不夠。額外證照也很有價值,有用的包括:
CCP資料工程師認證考試(Cloudera認證資料工程師證照)——提供了ETL工具和分析學的經驗證明。
谷歌的證照——證明熟悉基礎資料工程技能。
IBM認證資料工程師(大資料)——傳達的是具備大資料應用的工作經驗。
輔助認證同樣可行。比如MCSE(微軟認證解決方案專家)包含了很多主題,對特定主題還有附加認證,包括MCSE:資料管理和分析學;MCSA(微軟認證系統管理員):商業智慧報表;和MCSA:微軟雲平臺。此外,一些資料行業活動也能夠提供很棒的培訓和教學資源(同時提供進入網際網路的良好機會)。還有很多網路課程,能根據具體的情況提供有效培訓。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69903766/viewspace-2287207/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- UI/UE工程師修煉指南UI工程師
- 脫髮、禿頭防不勝防?這裡有一份給碼農的減壓指南
- 不四:產品工程師的修煉之路工程師
- 從萌新到老油條:Java 工程師的 Spring 禿頭指南Java工程師Spring
- 資料分析修煉指南
- 優秀的資料分析師是這樣煉成的
- 想成為一名優秀的Web前端工程師,這5點你必須知道Web前端工程師
- 資料視覺化│用了這個軟體我終於不禿頭了視覺化
- 『 不老 』程式設計師之修煉指南程式設計師
- Kotlin修煉指南Kotlin
- Java工程師修煉之路(校招總結)Java工程師
- 優秀工程師必備的三大思維,你擁有哪些?工程師
- typescript修煉指南(一)TypeScript
- typescript修煉指南(二)TypeScript
- typescript修煉指南(四)TypeScript
- typescript修煉指南(三)TypeScript
- 聽說你想成為Java老司機?這裡有一份進步寶典~Java
- 優秀的工程師都有這些特質,看看你擁有幾項?工程師
- 想成為全棧工程師,要做到哪幾點?全棧工程師
- 想成為網路安全工程師?如何“打怪升級”?工程師
- 如何守護資料安全? 這裡有一份RDS災備方案為你支招
- 全棧工程師修煉指南-熊燚(四火)-極客時間-返現12元全棧工程師
- 從小白到大師,這裡有一份Pandas入門指南
- 前端修煉の道 | 如何成為一名合格前端開發工程師?前端工程師
- 你想成為一名酷斃了的全棧工程師嗎?全棧工程師
- 想成為一名優秀的Java工程師,要怎麼做?Java工程師
- 要想成為一位優秀的工程師?一定要具備這些職業技能!工程師
- 程式設計師內功修煉之資料結構程式設計師資料結構
- 企業該如何做大資料的分析挖掘?這裡有一份參考指南大資料
- 我從來不覺得程式設計師是吃青春飯的!這裡有169萬份分析資料程式設計師
- 資源 | 普通程式設計師如何自學機器學習?這裡有一份指南~程式設計師機器學習
- 想成為高階程式設計師?最受歡迎的十大資料庫,全給你了!程式設計師大資料資料庫
- 瞭解這3點,你也能成為出色的Java工程師!Java工程師
- 如何成為 DevOps 工程師:分步指南dev工程師
- 想成為首席軟體工程師?請放下編譯原理來學習彈性工程!軟體工程工程師編譯原理
- Airbnb資料工程師的進階指南:技術基礎AI工程師
- Java工程師修煉之路(從小白到BAT的兩年學習歷程)Java工程師BAT
- 從軟體工程師轉型到資料科學家 我是這樣走的軟體工程工程師資料科學