一份資料工程師必備的學習資源,乾貨滿滿(附連結)

数据派THU發表於2019-01-25

本文首先詳細介紹了資料工程的職責、與資料科學家之間的差別以及其不同的工作角色,然後重點列出了很多與核心技能相關的的優秀學習資源,最後介紹行業內認可度較高的3種資料工程認證。


簡介

在建立模型之前,在資料經過清洗用於探索分析之前,甚至在資料科學家工作開始之前,資料工程師就已經閃亮登場了。每一個資料驅動的業務都需要一個適用於資料科學管道的框架,否則就是失敗的配置。

大多數人懷揣著成為資料科學家的夢想進入資料科學世界,但卻沒有意識到資料工程師是做什麼的,或者這個角色需要具備什麼能力。資料工程師是資料科學專案的重要組成部分,以至於在當今資料豐富的環境裡,產業對他們的需求正在指數式地上漲。

一份資料工程師必備的學習資源,乾貨滿滿(附連結)

目前,沒有統一的或者正式的學習路線可供資料工程師使用。大多數擔任這個角色的人是通過在工作中學習的,而不是遵循一個詳細的學習路線。我寫這篇文章的目的是幫助那些想成為資料工程師,但卻不知道從哪裡開始以及從哪裡找到學習資源的人。

本文中,我列出了所有有抱負的資料工程師需要知道的事情。首先,我們將瞭解什麼是資料工程師,以及該角色和資料科學家的區別,然後將繼續討論你的技能寶箱中應該有的核心技能,以便完全勝任這個工作,最後我還提到了一些應該考慮的行業認可證照。

好了,讓我們直接開始吧!

目錄

1. 什麼是資料工程師

2. 資料科學家和資料工程師的區別

3. 資料工程中的不同角色

4. 資料工程認證

5. 核心資料工程技能及其學習資源

  1. 資料工程簡介

  2. 基本語言要求:Python

  3. 紮實的作業系統知識

  4. 豐富、深入的資料庫知識-SQL和NoSQL

  5. 資料倉儲-Hadoop、MapReduce、Hive、Pig、Apache Spark、Kafka

  6. 基本的機器學習知識

6. 總結

1. 什麼是資料工程師

資料工程師負責構建和維護資料科學專案的資料架構,他們必須確保伺服器和應用程式之間的資料流是連續的。改進資料基礎應用程式,將新的資料管理技術和軟體整合到現有系統中,構建資料收集管道及其他各種各樣的事情,都屬於資料工程師的職責。

資料工程中最受歡迎的技能之一是設計和構建資料倉儲的能力。資料倉儲是收集、儲存和檢索所有原始資料的地方,如果沒有資料倉儲,一個資料科學家做的所有任務就會變得要麼太昂貴,要麼太大,以至於無法擴充。

ETL(提取、轉換和載入)是資料工程師構建資料管道所遵循的步驟,它實際上是一份關於如何處理、轉換收集來的原始資料以備分析的藍圖。

資料工程師通常有著工程背景,與資料科學家不同的是,這個角色不需要太多的學術和科學知識。因此,對構建大規模結構和體系結構的開發人員或工程師非常適合這個角色。

2. 資料科學家和資料工程師之間的區別

一份資料工程師必備的學習資源,乾貨滿滿(附連結)

瞭解這兩種角色之間的區別非常重要。從廣義上講,資料科學家綜合使用統計學、數學、機器學習和行業知識來構建模型。他/她必須使用組織支援的相同工具/語言和框架來編碼和構建這些模型。而資料工程師必須構建並維護適用於資料收集、處理和部署資料密集型應用的資料結構和體系架構。構建資料收集和儲存管道,將資料彙總給資料科學家,從而將模型投入生產-這些只是資料工程師必須執行的任務中的一部分。

要使任何大規模資料科學專案取得成功,資料科學家和資料工程師需要攜手合作,否則事情很快就會出錯。

要了解有關這兩個角色之間差異的更多資訊,請訪問我們的詳細資訊圖。

詳細資訊圖:

https://www.analyticsvidhya.com/blog/2015/10/job-comparison-data-scientist-data-engineer-statistician/

3. 與資料工程相關的不同角色

  • 資料架構師:資料架構師為資料管理系統收集、整合和維護所有的資料來源奠定基礎,這個角色需要了解SQL、XML、Hive、Pig、Spark等工具。

  • 資料庫管理員:顧名思義,擔任此角色的人需要對資料庫有著廣泛的瞭解。職責包括確保資料庫對所有需要的使用者可用,適當地維護資料庫,並且保證在新增新特性時沒有任何中斷。

  • 資料工程師:精通以上眾多技巧的人。正如我們所見,資料工程師需要掌握資料庫工具、Python和Java語言、分散式系統(如Hadoop)等知識,這個角色負責多種組合任務。

4. 資料工程認證

谷歌認證專家

這是目前最重要的資料工程認證之一。要獲得此證照,你需要成功地通過一個具有挑戰性的、2個小時多的考試,題型是多項選擇題。你可以在這個網頁上找到考試內容的大體範圍,此外,這個網頁提供給了一些實際操作谷歌雲技術的實踐指南。請一定要看一下!

谷歌認證專家:

https://cloud.google.com/certification/data-engineer

IBM認證資料工程師

一份資料工程師必備的學習資源,乾貨滿滿(附連結)

要獲得證照,你需要通過這個考試。考試包含54個問題,你必須正確回答44個。我建議在考試前,先了解IBM希望你瞭解的內容。“考試”連結中還提供了學習資料的進一步連結,你可以參考這些資料進行準備。

IBM認證資料工程師:

https://www.ibm.com/certify/cert?id=50001501


考試:

https://www.ibm.com/certify/exam?id=C2090-101

Cloudera的CCP資料工程師

一份資料工程師必備的學習資源,乾貨滿滿(附連結)

這是另一個全球公認的認證,對新手來說是一個相當具有挑戰性的認證。你的概念需要更新和深入,你應該有一些使用資料工程工具的實踐經驗,如Hadoop,Oozie,AWS Sandbox等。但是,如果你通過這次考試,對於你獲得開啟資料工程領域工作來說,會是一個充滿希望的開始!

Cloudera曾提到,如果你參加他們的Apache Spark和Hadoop培訓課程,這將有助於你通過考試,原因是考試主要基於這兩個工具。

Cloudera的CCP資料工程師:

https://www.cloudera.com/more/training/certification/ccp-data-engineer.html


Apache Spark和Hadoop培訓課程:

https://www.cloudera.com/more/training/courses/developer-training-for-spark-and-hadoop.html

5. 資料工程核心技能及其學習資源

  1. 資料工程簡介

  2. 基本語言要求:Python

  3. 紮實的作業系統知識

  4. 豐富、深入的資料庫知識-SQL和NoSQL

  5. 資料倉儲-Hadoop、MapReduce、Hive、Pig、Apache Spark、Kafka

  6. 基本的機器學習知識

a. 資料工程簡介

一份資料工程師必備的學習資源,乾貨滿滿(附連結)

在深入瞭解角色之間的不同方面之前,首先得了解資料工程的實質是什麼。資料工程每天執行的不同工作是什麼?頂尖技術公司想要怎樣的資料工程師?你是應該瞭解可見的所有一切,還是僅僅瞭解與某一特定角色相關的東西?我的目的是提供以下參考資料,以助你找到這些問題或者其餘更多問題的答案。

《資料工程入門指南》(第1部分):這是一篇非常受歡迎的、有關資料工程的文章,出自愛彼迎(Airbnb)的一位資料科學家之手。作者首先解釋了為什麼資料工程是所有機器學習專案中如此關鍵的一方面,然後深入探討了本主題的每個部分。我認為這是所有想要成為資料工程師、資料科學家的新手們必讀的一篇文章。

《資料工程入門指南》(第1部分):

https://medium.com/@rchang/a-beginners-guide-to-data-engineering-part-i-4227c5c457d7

《資料工程入門指南》(第2部分):接著上面的文章,第2部分將介紹資料建模、資料分割槽、Airflow和ETL的最佳實踐。

《資料工程入門指南》(第2部分):

https://medium.com/@rchang/a-beginners-guide-to-data-engineering-part-ii-47c4e7cbda71

《資料工程入門指南》(第3部分):這是入門指南系列中的最後一部分,本部分將介紹資料工程框架的概念。在整個系列中,作者不斷將理論與Airbnb的實踐相結合,從而寫了一篇篇精妙絕倫的文章,而且還在持續更新中。

《資料工程入門指南》(第3部分):

https://medium.com/@rchang/a-beginners-guide-to-data-engineering-the-series-finale-2cc92ff14b0

O'Reilly的免費資料工程電子書套件:O'Reilly以其優秀的圖書而出名,這一系列也不例外。不過,這些書是免費的!向下滾動到“大資料架構”部分,檢視那裡的書籍。有些書籍需要有大資料基礎設施的基本知識,但這些書將有助於你熟悉複雜的資料工程任務。

O'Reilly的免費資料工程電子書套件:

https://www.oreilly.com/data/free/

b. 基本語言要求:Python

一份資料工程師必備的學習資源,乾貨滿滿(附連結)

雖然還有其他的資料工程專用程式語言(如JAVA和Scala),但我們本文將只關注Python。我們看到業界已經明顯轉向使用Python,而且使用率正在快速上升。它已經成為資料工程師(和資料科學家)技能的重要組成部分。

網路上有大量的學習Python資源,我在下面提到了其中的一些。

在Scratch平臺上使用Python學習資料科學的完整教程:KunalJain的這篇文章涵蓋了一系列可以用來開始學習和提升Python的資源,這是必讀的資源。

在Scratch平臺上使用Python學習資料科學的完整教程:

https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/

使用Python的資料科學導論:這是Analytics Vidhya上最受歡迎的課程,涵蓋了Python的基本知識。我們還額外介紹了核心統計概念和預測建模方法,以鞏固你對python和資料科學基礎的理解。

使用Python的資料科學導論:

https://trainings.analyticsvidhya.com/courses/coursev1:AnalyticsVidhya+DS101+2018T2/about

Codeacademy上學習Python課程:本課程不需要程式設計基礎,絕對是從python的最基礎開始,這是一個很好的起點。

Codeacademy上學習Python課程:

https://www.codecademy.com/learn/learn-python

如果你喜歡通過書本來學習,下面是一些免費的電子書,便於你開始學習:

Allen Downey的《思考Python》:全面深入地介紹了Python語言,非常適合新手,甚至非程式設計師。

Allen Downey的《思考Python》:

http://www.greenteapress.com/thinkpython/thinkpython.pdf

Python 3的非程式設計師教程:顧名思義,它是非IT背景和非技術背景新手們的完美起點,每章都有大量的示例來測試你的知識。

Python 3的非程式設計師教程:

https://upload.wikimedia.org/wikipedia/commons/1/1d/Non-Programmer%27s_Tutorial_for_Python_3.pdf

c. 紮實的作業系統知識

一份資料工程師必備的學習資源,乾貨滿滿(附連結)

在整個資料科學世界的“機器”中,作業系統是使管道運轉起來的重要“齒輪”。資料工程師應該瞭解基礎設施元件(如虛擬機器、網路、應用程式服務等)的輸入和輸出。你對伺服器管理有多精通?你對Linux是否有足夠的瞭解,可以瀏覽不同的配置嗎?你對訪問控制方法有多熟悉?作為一名資料工程師,這些只是你將面臨的一些問題。

Linux伺服器管理和安全:本課程是為那些想了解Linux如何在公司應用的人而設計的,課程內容分為4周(最後還有一個專案),詳細介紹了這個主題中的所有基本內容。

Linux伺服器管理和安全:

https://www.coursera.org/learn/linux-server-management-security

CS401-作業系統和其他作業系統課程一樣全面,這個課程包含9個部分,專門介紹作業系統的不同方面。主要介紹基於Unix的系統,儘管Windows也包括在內。

CS401-作業系統

https://learn.saylor.org/course/cs401

Raspberry Pi平臺和Raspberry Pi的python程式設計:這是一個炙手可熱的程式設計方式,現在對這種程式設計人員的需求空前高漲。本課程旨在讓你熟悉Raspberry Pi環境,並讓你開始學習Raspberry PI上的python基本程式碼。

Raspberry Pi平臺和Raspberry Pi的python程式設計:

https://www.coursera.org/learn/raspberry-pi-platform

d. 豐富、深入的資料庫知識-SQL和NoSQL

一份資料工程師必備的學習資源,乾貨滿滿(附連結)

為了成為一名資料工程師,你需要熟練掌握資料庫語言和工具。這是另一個非常基本的要求,你需要具備實時從資料庫收集、儲存和查詢資訊的能力。現今有很多可用的資料庫,我已經列出了目前在業界廣泛使用的資料庫的相關資源,分為SQL和NoSQL兩部分。

  • SQL資料庫

一份資料工程師必備的學習資源,乾貨滿滿(附連結)

免費學習SQL:這是codecademy另一個課程,你可以在這裡學到SQL很基本的知識,像操作、查詢、聚合函式這些主題從一開始就涵蓋了。如果你是這個領域的新手,沒有比這更好的起點了。

免費學習SQL:

https://www.codecademy.com/learn/learn-sql

快速查詢SQL命令的備忘錄:一個非常有用的Github儲存庫,包含定期更新的SQL查詢和示例。為了保證你在任何時候都可以快速查詢SQL相關命令,請將為這個儲存庫加入收藏,作為日常參考。

快速查詢SQL命令的備忘錄:

https://github.com/enochtangg/quick-SQL-cheatsheet

MYSQL教程:MySQL建立於20多年前,至今仍是業界的熱門選擇。這個資源是一個基於文字的教程,易於理解。這個站點最酷的是,每個主題都附帶實用示例的SQL指令碼和螢幕截圖。

MYSQL教程:

http://www.mysqltutorial.org/

學習Microsoft SQL Server:本教程從基礎知識到更高的主題探討SQL Sever的概念,並以程式碼和詳細的螢幕截圖的方式解釋了概念。

學習Microsoft SQL Server:

https://www.tutorialspoint.com/ms_sql_server/

PostgreSQL教程:這是一個讓人驚叫的詳細指南,讓你開始和熟悉PostgreSQL。本教程分為16個部分,因此你完全可以想象出該課程的覆蓋面有多廣。

PostgreSQL教程:

http://www.postgresqltutorial.com/

Oracle Live SQL:誰能比建立者更好地學習Oracle SQL資料庫?這個平臺設計得非常好提供了良好的終端使用者體驗。你可以在這個平臺上檢視指令碼和教程,然後還可以在這裡編碼。哇,這太棒啦!

Oracle Live SQL:

https://livesql.oracle.com/apex/f?p=590:1000

  • NoSQL資料庫

一份資料工程師必備的學習資源,乾貨滿滿(附連結)

MongoDB來自MongoDB:這是目前最流行的NoSQL資料庫,和上面提及的Oracle培訓課程一樣,學習MongoDB最好的方式是從建立它的大師們那裡學習。我在這裡連結了他們的整個課程目錄,你可以選擇你想參加的培訓課程。

MongoDB來自MongoDB:

https://university.mongodb.com/courses/catalog

MongoDB簡介:本課程將幫助你快速啟動和執行MongoDB,並教你如何利用它進行資料分析。這是一個為期3周的短課程,但有大量的練習。當你完成的時候,會覺得自己就是一名專家了!

MongoDB簡介:

https://www.coursera.org/learn/introduction-mongodb

學習Cassandra:如果你正在尋找一個優秀的、基於文字的、新手易於理解的Cassandra簡介,這會是一個完美的資源。像Cassandra的架構、安裝、關鍵操作等主題都會在這裡有所介紹,本教程還提供了專門的章節來講解CQL種可用的資料型別和集合、以及如何使用使用者自定義的資料型別。

學習Cassandra:

https://www.tutorialspoint.com/cassandra/index.htm

Redis Enterprise:瞭解Redis的資源不多,但這一個站點就足夠了。有多個課程和精心設計的視訊,使人沉浸其中,樂趣無窮,而且它是免費的!

Redis Enterprise:

https://university.redislabs.com/

Google Bigtable:作為Google的產品,學習BigTable工作原理的資源稀缺得讓人驚訝,我連結了一個包含大量谷歌雲主題的課程,你可以向下滾動,選擇BigTable(或BigQuery)。不過,我建議你仔細閱讀整個課程,因為它提供了有關谷歌整個雲產品如何工作的寶貴見解。

Google Bigtable:

https://www.coursera.org/learn/gcp-fundamentals

Couchbase:這裡提供多種培訓課程(向下滾動檢視免費培訓課程),從初學者到高階都有。如果Couchbase是你們所用的資料庫,那麼你將在這裡瞭解有關它的所有資訊。

Couchbase:

http://training.couchbase.com/store

e. 資料倉儲-Hadoop、MapReduce、Hive、Pig、Apache Spark、Kafka

一份資料工程師必備的學習資源,乾貨滿滿(附連結)

現在,在每一個資料工程師的工作描述中都會看到像Hadoop(HDFS)這樣的分散式檔案系統。它是所有角色都需要掌握的,你應該非常熟悉。除此之外,你還需要了解ApacheSpark、Hive、Pig、Kafka等平臺和框架,我在本節列出了所有這些主題的資源。

  • Hadoop和MapReduce

一份資料工程師必備的學習資源,乾貨滿滿(附連結)

Hadoop基礎知識:這本質上是Hadoop的學習路徑,它包括5門課程,可以讓你深入地瞭解hadoop是什麼、定義它的體系結構和元件是什麼、如何使用它、它的應用怎麼樣以及其他更多的內容。

Hadoop基礎知識:

https://cognitiveclass.ai/learn/hadoop/

Hadoop入門包:對於想要著手開始學Hadoop的人來說,這是一個非常全面的、優秀的免費課程。它包括HDFS、MapReduce、Pig和Hive之類的主題,可以通過免費訪問叢集來練習所學的內容。

Hadoop入門包:

https://www.udemy.com/hadoopstarterkit/

HortonWorks教程:作為Hadoop的建立者,HortonWorks擁有一套令人萬分期待的課程,可以學習與Hadoop相關的各種知識。從低階到高階,本頁有著非常全面的教程列表,一定要看一下這個!

HortonWorks教程:

https://hortonworks.com/tutorials/

MapReduce簡介:在閱讀本文之前,你需要了解Hadoop的基本工作原理。請完成後,再回來深入瞭解MapReduce的世界。

MapReduce簡介:

https://www.analyticsvidhya.com/blog/2014/05/introduction-mapreduce/

Hadoop超越了傳統的MapReduce-簡版:本文介紹了Hadoop生態系統的概述,它超越了簡單的MapReduce

Hadoop超越了傳統的MapReduce-簡版:

https://www.analyticsvidhya.com/blog/2014/11/hadoop-mapreduce/

更喜歡書嗎?別擔心,我已經幫你選好了!下面是一些免費電子書,涵蓋hadoop和它的元件。

《Hadoop詳解》:簡要介紹Hadoop的複雜體系,對Hadoop的工作原理、優勢、現實場景中的應用程式等進行了高層次的概述。

《Hadoop詳解》:

https://www.packtpub.com/packt/free-ebook/hadoop-explained


《Hadoop-你應該瞭解的》:這本書和上面的書有相似的內容。正如描述所說,這些書所涵蓋的內容足夠讓你瞭解Hadoop的方方面面,從而做出明智的決策。


《Hadoop-你應該瞭解的》:

https://www.oreilly.com/data/free/hadoop-what-you-need-to-know.csp?intcmp=il-data-free-lp-lgen_free_reports_page


《使用MapReduce進行資料密集型文字處理》:這本免費電子書涵蓋了MapReduce的基本知識及其演算法的設計,然後深入探討了你應該瞭解的示例和應用程式。建議你在閱讀這本書之前先上上述課程。


《使用MapReduce進行資料密集型文字處理》:

https://lintool.github.io/MapReduceAlgorithms/MapReduce-book-final.pdf


你應該加入Hadoop LinkedIn小組,以保證自己獲取最新的訊息,並詢問你的任何問題。


Hadoop LinkedIn小組

https://www.linkedin.com/groups/988957/profile

  • Apache Spark

一份資料工程師必備的學習資源,乾貨滿滿(附連結)

Apache Spark、RDD和Dataframes(使用PySpark)的綜合指南:這是一篇讓你開始學習Apache Spark的終極文章,屬於必讀指南。它介紹了Apache Spark的歷史以及如何使用Python、RDD/Dataframes/Datasets安裝它,然後通過解決機器學習問題,對自己的知識點進行查漏補缺。


Apache Spark、RDD和Dataframes(使用PySpark)的綜合指南:

https://www.analyticsvidhya.com/blog/2016/09/comprehensive-introduction-to-apache-spark-rdds-dataframes-using-pyspark/


初學者學習Spark R的詳細指南:如果你是R的使用者,這個就是為你準備的!當然,你可以使用Spark和R,本文可以作為你的指南。


初學者學習Spark R的詳細指南:

https://www.analyticsvidhya.com/blog/2016/06/learning-path-step-step-guide-beginners-learn-sparkr/


Spark的基礎知識:本課程涵蓋Spark的基礎知識、元件、使用方法、使用它的互動式示例和各種Spark庫,最後瞭解Spark叢集。你還能從這門課程中要求更多的內容嗎?


Spark的基礎知識:

https://cognitiveclass.ai/courses/what-is-spark/


ApacheSpark和AWS簡介:這是一門以實踐為中心的課程。你將處理古登堡專案資料,它是世界上最大的電子書開放資料集。你還需要了解Python和Unix命令列,以便從本課程中學到更多。


ApacheSpark和AWS簡介:

https://www.coursera.org/learn/bigdata-cluster-apache-spark-and-aws


  • 涵蓋Hadoop、Spark、Hive和Spark SQL的綜合教程


大資料基礎知識-HDF、MapReduce和Spark RDD:本課程採用真實的資料來教你基本的大資料技術-HDFS、MapReduce和Spark。這門課程非常詳細,示例豐富,資料集實用,而且教師很優秀,屬於經典課程。


大資料基礎知識-HDF、MapReduce和Spark RDD:

https://www.coursera.org/learn/big-data-essentials


大資料分析-Hive、Spark SQL、DataFrames 和GraphFrames:MapReduce和Spark解決了處理大資料的部分問題,通過這門直觀的課程你可以掌握這些高階工具,從而掌握有關Hive和Spark SQL等方面的知識。


大資料分析-Hive、Spark SQL、DataFrames 和GraphFrames:

https://www.coursera.org/learn/big-data-analysis


大資料應用-實時流:處理大資料的挑戰除了要具備處理資料的計算能力,還要具備儘可能快的處理速度。像推薦引擎這樣的應用程式需要實時地進行大量資料的處理、儲存和查詢,這就要求你掌握本課程中所提供的諸如Kafka、Cassandra和Redis等系統的知識。但要學習這門課程,你需要了解Hadoop、Hive、Python、Spark和Spark SQL的應用。


大資料應用-實時流:

https://www.coursera.org/learn/real-time-streaming-big-data

  • Kafka

一份資料工程師必備的學習資源,乾貨滿滿(附連結)

使用Apache Kafka簡化資料管道:瞭解Apache Kafka及其體系架構和使用方法,你需要對Hadoop、Spark和Python有基本的瞭解,才能真正從本課程中獲得最大的收穫。


使用Apache Kafka簡化資料管道:

https://cognitiveclass.ai/courses/simplifyingdatapipelines/


Kafka官方文件:這是一個非常直觀地介紹Kafka的工作原理及其元件的網頁,它還提供了一個關於分散式流媒體平臺的解釋說明,非常棒!


Kafka官方文件:

https://kafka.apache.org/intro


用Kafka給資料科學家賦能:這本身不是一個很好的學習資源,而是一篇介紹Stitch Fix的資料工程師如何根據資料科學家的要求構建一個平臺的文章,非常有趣,而且十分詳細。


用Kafka給資料科學家賦能:

https://multithreaded.stitchfix.com/blog/2018/09/05/datahighway/

f. 基本的機器學習知識

一份資料工程師必備的學習資源,乾貨滿滿(附連結)

雖然人們普遍認為機器學習資料科學家的領域,但資料工程師也需要精通其中的某些技術,原因在於你需要簡化將模型投入生產的過程和用於資料收集、生成的管道。因此,你需要對機器學習演算法有一個基本的瞭解。


學習機器學習基礎知識的新手指南:作者Kunal Jain精彩地介紹了機器學習世界,旨在消除你聽到或讀到地所有行話。指南直截了當地切入問題的核心,最終你會愛上這種寫作風格。


學習機器學習基礎知識的新手指南:

https://www.analyticsvidhya.com/blog/2015/06/machine-learning-basics/


機器學習演算法基本知識:這是一篇優秀的文章,提供了各種對機器學習演算法的高層次理解,還提供了在R和python實現這些演算法的指南,這是開啟你學習旅程的絕佳地點!


機器學習演算法基本知識:

https://www.analyticsvidhya.com/blog/2017/09/common-machine-learning-algorithms/


新手必讀的機器學習人工智慧書籍:如果你更喜歡看書,那麼請閱讀本文!這裡收藏了最優秀的書,即使你只讀了其中的幾本,這也會助你朝著夢想中的事業邁進一大步!


新手必讀的機器學習人工智慧書籍:

https://www.analyticsvidhya.com/blog/2018/10/read-books-for-beginners-machine-learning-artificial-intelligence/


提升你知識和技能的24個終極資料科學專案:一旦你獲得了一定量的知識和技能,請一定要把你的理論知識付諸實踐。檢視這些資料集,按照易到難的順序,開始處理吧!


提升你知識和技能的24個終極資料科學專案:

https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills/

6. 總結

成為一名資料工程師並不容易,因為你需要從以上所有的資源中獲取資訊,而且你還要有著將工具、技術和職業道德融為一體的深入理解。由於現在是資料時代,資料工程師在業內需求巨大,對於任何願意從事這一工作的人來說,這依舊是一個收入可觀的職業選擇!

一旦你走上這條路,就力爭成為資料工程師吧!請在下面的評論區,告訴我你對這組資源的反饋和建議。

原文標題:

Want to Become a Data Engineer? Here’s a Comprehensive List of Resources to get Started

原文連結:

https://www.analyticsvidhya.com/blog/2018/11/data-engineer-comprehensive-list-resources-get-started/

相關文章