如何在大資料和機器學習領域,獲得一份不錯薪資?【附上超詳細的大資料學習誤區全在這,看完想走彎路都難!】

qq_41842569發表於2018-07-18

2018 年,AI 的發展腳步會加快,這一年將是 AI 技術重生和資料科學得以重新定義的一年。對於雄心勃勃的資料科學家來說,他

們如何在與資料科學相關的工作市場中脫穎而出?2018 年會有足夠多的資料科學相關工作嗎?還是說有可能出現萎縮?接下

來,讓我們來分析一下資料科學的趨勢,並一探如何在未來的大資料和機器學習 /AI 領域獲得一份不錯的工作。”

本人對於大資料學習建立了一個小小的學習圈子,為各位提供了一個平臺,大家一起來討論學習大資料。歡迎各位到來大資料學習群:868847735 一起討論視訊分享學習。大資料是未來的發展方向,正在挑戰我們的分析能力及對世界的認知方式,因此,我們與時俱進,迎接變化,並不斷的成長,掌握大資料核心技術,才是掌握真正的價值所在。
 

 

 

 

1、你需要牢固掌握概率統計學,並學習和掌握一些演算法,比如樸素貝葉斯、高斯混合模型、隱馬爾可夫模型、混淆矩陣、ROC

曲線、P-Value 等。

不但要理解這些演算法,還要知道它們的工作原理。你需要牢固掌握梯度下降、凸優化、拉各朗日方法論、二次規劃、偏微分方

程、求積法等相關演算法。

如果你想找一份高薪的工作,還需要掌握機器學習技術和演算法,比如 k-NN、樸素貝葉斯、SVM 和決策森林等。

如何在未來的大資料和機器學習領域,獲得一份不錯的工作?

2、

現在大部分機器學習都需要海量資料,所以你無法在單臺機器上進行機器學習。所以,你需要用到叢集,需要掌握 Apache

Hadoop 和一些雲服務,如 Rackspace、Amazon EC2、Google Cloud Platform、OpenStack 和 Microsoft Azure 等。

你還需要掌握各種 Unix 工具,如 cat、grep、find、awk、sed、sort、cut、tr 等。因為機器學習基本上都是在 Unix 系統上執行

的,所以需要掌握這些工具,知道它們的作用以及如何使用它們。

3、在掌握程式語言和演算法的同時,不要忽略了資料視覺化的作用。如果無法讓你自己或別人理解資料,那麼它們就變得毫無意

義。資料視覺化就是指如何在正確的時間向正確的人展示資料,以便讓他們從中獲得價值。主要的資料視覺化工具包括:

Tableau、QlikView、Someka Heat Maps、FusionCharts、Sisense、Plotly、Highcharts、Datawrapper、D3.js、ggplot 等。

4、要成為資料科學家,不一定非要拿到資料科學方面的學位。事實上,你完全不需要這麼做,這樣做反而不是個好主意。如果

你能拿到計算機學位、工程學學位、經濟學學位、數學學位、統計學學位、精算師學位、金融學學位或者自然科學學位(物理、

化學或生物)都是可以的。甚至是人文科學(包括社會科學)也是可以的。

2018年跳槽指南:如何找到一份人工智慧相關的工作?

 

 

“2017 年,大資料把 AI 推向了技術炒作的舞臺正中央,資料科學和機器學習在各行各業開始嶄露頭角。機器學習

開始被應用於解決資料分析問題。機器學習、AI 和預測分析成為 2017 年的熱門話題。我們見證了基於資料的價值創新,包括數

據科學平臺、深度學習和主要幾個廠商提供的機器學習雲服務,還有機器智慧、規範性分析、行為分析和物聯網。

2018 年,AI 的發展腳步會加快,這一年將是 AI 技術重生和資料科學得以重新定義的一年。對於雄心勃勃的資料科學家來說,他

們如何在與資料科學相關的工作市場中脫穎而出?2018 年會有足夠多的資料科學相關工作嗎?還是說有可能出現萎縮?接下

來,讓我們來分析一下資料科學的趨勢,並一探如何在未來的大資料和機器學習 /AI 領域獲得一份不錯的工作。”

 

增強技術實力

程式語言和開發工具

365 Data Science 收集了來自 LinkedIn 的 1001 資料科學家的資訊,發現需求量最大的程式語言為 R 語言、Python 和 SQL。另

外,還要求具備 MATLAB、Java、Scala 和 C/C++ 方面的知識。為了能夠脫穎而出,需要熟練掌握 Weka 和 NumPy 這類工

具。

如何在未來的大資料和機器學習領域,獲得一份不錯的工作?

概率統計學、應用數學和機器學習演算法

你需要牢固掌握概率統計學,並學習和掌握一些演算法,比如樸素貝葉斯、高斯混合模型、隱馬爾可夫模型、混淆矩陣、ROC 曲

線、P-Value 等。

不但要理解這些演算法,還要知道它們的工作原理。你需要牢固掌握梯度下降、凸優化、拉各朗日方法論、二次規劃、偏微分方

程、求積法等相關演算法。

如果你想找一份高薪的工作,還需要掌握機器學習技術和演算法,比如 k-NN、樸素貝葉斯、SVM 和決策森林等。

分散式計算和 Unix 工具

現在大部分機器學習都需要海量資料,所以你無法在單臺機器上進行機器學習。所以,你需要用到叢集,需要掌握 Apache

Hadoop 和一些雲服務,如 Rackspace、Amazon EC2、Google Cloud Platform、OpenStack 和 Microsoft Azure 等。

你還需要掌握各種 Unix 工具,如 cat、grep、find、awk、sed、sort、cut、tr 等。因為機器學習基本上都是在 Unix 系統上執行

的,所以需要掌握這些工具,知道它們的作用以及如何使用它們。

查詢語言和 NoSQL 資料庫

傳統關係型資料庫已經老去。除了 Hadoop 之外,你還需要掌握 SQL、Hive 和 Pig,以及 NoSQL 資料庫,如 MongoDB、

Casssandra、HBase。

如何在未來的大資料和機器學習領域,獲得一份不錯的工作?

基於 NoSQL 分散式資料庫的基礎設施已經成為大資料倉儲的基礎。原先在一箇中心關係型資料庫上需要 20 個小時才能處理完

 

的任務,在一個大型的 Hadoop 叢集上可能只需要 3 分鐘時間。當然,你也可以使用 MapReduce、Cloudera、Tarn、PaaS、

Chef、Flume 和 ABAP 這些工具。

資料視覺化工具

在掌握程式語言和演算法的同時,不要忽略了資料視覺化的作用。如果無法讓你自己或別人理解資料,那麼它們就變得毫無意義。

資料視覺化就是指如何在正確的時間向正確的人展示資料,以便讓他們從中獲得價值。主要的資料視覺化工具包括:Tableau、

QlikView、Someka Heat Maps、FusionCharts、Sisense、Plotly、Highcharts、Datawrapper、D3.js、ggplot 等。

正確選擇教育背景和專業

要成為資料科學家,不一定非要拿到資料科學方面的學位。事實上,你完全不需要這麼做,這樣做反而不是個好主意。如果你能

拿到計算機學位、工程學學位、經濟學學位、數學學位、統計學學位、精算師學位、金融學學位或者自然科學學位(物理、化學

或生物)都是可以的。甚至是人文科學(包括社會科學)也是可以的。

如何在未來的大資料和機器學習領域,獲得一份不錯的工作?

但或許你會在其他領域得到更好的發展,比如經濟、應用數學或工程領域。首先要確定資料科學這條路是不是適合自己。2018

年絕對不會讓那些有志在資料科學領域一展身手的人失望。不過還是那句話,一個具備分析能力的大腦、熟練的程式設計技能、誠摯

的熱情和持續自我提升的毅力將決定你的資料科學家之路會走多遠。

 

 

 

跟大家分享到底要怎麼學習它,以及怎麼避免大資料學習的誤區,以供參考。

 

(1)大資料學習要業務驅動,不要技術驅動:資料科學的核心能力是解決問題。大資料的核心目標是資料驅動的智慧化,要解

決具體的問題,不管是科學研究問題,還是商業決策問題,抑或是政府管理問題。所以學習之前要明確問題,理解問題,所謂問

題導向、目標導向,這個明確之後再研究和選擇合適的技術加以應用,這樣才有針對性,言必hadoop,spark的大資料分析是不嚴

謹的。不同的業務領域需要不同方向理論、技術和工具的支援。

(2)大資料學習要善用開源,不要重複造輪子:資料科學的技術基因在於開源。IT前沿領域的開源化已成不可逆轉的趨勢,

Android開源讓智慧手機平民化,讓我們跨入了移動網際網路時代,智慧硬體開源將帶領跨入物聯網時代,以Hadoop和Spark為代

表的大資料開源生態加速了去IOE(IBM、ORACLE、EMC)程式,倒逼傳統IT巨頭擁抱開源,谷歌和OpenAI聯盟的深度學習開

源(以Tensorflow,Torch,Caffe等為代表)正在加速人工智慧技術的發展。

(3)大資料學習要以點帶面,不貪大求全:資料科學要把握好碎片化與系統性。根據前文的大資料技術體系分析,我們可以看

到大資料技術的深度和廣度都是傳統資訊科技難以比擬的。我們的精力很有限,短時間內很難掌握多個領域的大資料理論和技

術,資料科學要把握好碎片化和系統性的關係。

(4)大資料學習要勇於實踐,不要紙上談兵:資料科學還是資料工程?大資料只有和特定領域的應用結合起來才能產生價值,

資料科學還是資料工程是大資料學習要明確的關鍵問題,搞學術發paper資料科學OK,但要大資料應用落地,如果把資料科學成

果轉化為資料工程進行落地應用,難度很大,這也是很多企業質疑資料科學價值的原因。

超詳細的大資料學習誤區全在這,看完想走彎路都難!

相關文章