本文由 【AI前線】原創,原文連結:http://t.cn/RHqaB5p
作者|Tanmoy Ray
譯者|薛命燈
編輯|Emily
AI 前線導讀:“2017 年,大資料把 AI 推向了技術炒作的舞臺正中央,資料科學和機器學習在各行各業開始嶄露頭角。機器學習開始被應用於解決資料分析問題。機器學習、AI 和預測分析成為 2017 年的熱門話題。我們見證了基於資料的價值創新,包括資料科學平臺、深度學習和主要幾個廠商提供的機器學習雲服務,還有機器智慧、規範性分析、行為分析和物聯網。2018 年,AI 的發展腳步會加快,這一年將是 AI 技術重生和資料科學得以重新定義的一年。對於雄心勃勃的資料科學家來說,他們如何在與資料科學相關的工作市場中脫穎而出?2018 年會有足夠多的資料科學相關工作嗎?還是說有可能出現萎縮?接下來,讓我們來分析一下資料科學的趨勢,並一探如何在未來的大資料和機器學習 /AI 領域獲得一份不錯的工作。”
增強技術實力
程式語言和開發工具
365 Data Science 收集了來自 LinkedIn 的 1001 資料科學家的資訊,發現需求量最大的程式語言為 R 語言、Python 和 SQL。另外,還要求具備 MATLAB、Java、Scala 和 C/C++ 方面的知識。為了能夠脫穎而出,需要熟練掌握 Weka 和 NumPy 這類工具。
概率統計學、應用數學和機器學習演算法
你需要牢固掌握概率統計學,並學習和掌握一些演算法,比如樸素貝葉斯、高斯混合模型、隱馬爾可夫模型、混淆矩陣、ROC 曲線、P-Value 等。
不但要理解這些演算法,還要知道它們的工作原理。你需要牢固掌握梯度下降、凸優化、拉各朗日方法論、二次規劃、偏微分方程、求積法等相關演算法。
如果你想找一份高薪的工作,還需要掌握機器學習技術和演算法,比如 k-NN、樸素貝葉斯、SVM 和決策森林等。
分散式計算和 Unix 工具
現在大部分機器學習都需要海量資料,所以你無法在單臺機器上進行機器學習。所以,你需要用到叢集,需要掌握 Apache Hadoop 和一些雲服務,如 Rackspace、Amazon EC2、Google Cloud Platform、OpenStack 和 Microsoft Azure 等。
你還需要掌握各種 Unix 工具,如 cat、grep、find、awk、sed、sort、cut、tr 等。因為機器學習基本上都是在 Unix 系統上執行的,所以需要掌握這些工具,知道它們的作用以及如何使用它們。
查詢語言和 NoSQL 資料庫
傳統關係型資料庫已經老去。除了 Hadoop 之外,你還需要掌握 SQL、Hive 和 Pig,以及 NoSQL 資料庫,如 MongoDB、Casssandra、HBase。
基於 NoSQL 分散式資料庫的基礎設施已經成為大資料倉儲的基礎。原先在一箇中心關係型資料庫上需要 20 個小時才能處理完的任務,在一個大型的 Hadoop 叢集上可能只需要 3 分鐘時間。當然,你也可以使用 MapReduce、Cloudera、Tarn、PaaS、Chef、Flume 和 ABAP 這些工具。
資料視覺化工具
在掌握程式語言和演算法的同時,不要忽略了資料視覺化的作用。如果無法讓你自己或別人理解資料,那麼它們就變得毫無意義。資料視覺化就是指如何在正確的時間向正確的人展示資料,以便讓他們從中獲得價值。主要的資料視覺化工具包括:Tableau、QlikView、Someka Heat Maps、FusionCharts、Sisense、Plotly、Highcharts、Datawrapper、D3.js、ggplot 等。
正確選擇教育背景和專業
要成為資料科學家,不一定非要拿到資料科學方面的學位。事實上,你完全不需要這麼做,這樣做反而不是個好主意。如果你能拿到計算機學位、工程學學位、經濟學學位、數學學位、統計學學位、精算師學位、金融學學位或者自然科學學位(物理、化學或生物)都是可以的。甚至是人文科學(包括社會科學)也是可以的。
365 Data Science 的研究表明,20% 的資料科學家擁有計算機學位,19% 擁有統計學或數學背景,19% 主攻經濟和社會科學專業。只有 13% 擁有存粹的資料科學學位。不過很少有大學提供資料科學本科學位,他們大部分都提供了碩士學位。因為該職業是一個新興職業,所以毫無疑問,很多人在本科階段並不會接觸到資料科學。
如果能夠繼續深造,拿到資料科學或機器學習 /AI 相關的碩士或博士學位,自然會助你一臂之力,特別是如果你想在世界 500 強公司裡找到一份資料科學家的工作。365 Data Science 研究發現,擁有碩士和博士學位的 1001 資料科學家比例分別是 48% 和 27%。
不過,碩士學位確實不是那麼好拿到的,但如果能夠拿到,那絕對是如虎添翼。如果你想從事資料分析工作,但不一定要接觸資料科學和機器學習,那麼碩士學位就不是必需的。你完全可以在沒有碩士學位的情況下獲得一份資料分析的工作。不要把資料科學和資料分析混淆起來了。
獲得實際的經驗
在實習結束後,有 18% 的人可以直接進入資料科學領域。所以,如果你已經有了碩士學位,最好先找一個實習崗位,而不是直接繼續讀博。
在現實當中,很少有公司會直接正式招聘應屆的資料科學家。他們大部分人都是從分析員(資料分析、BI 分析)、實習生、IT 專員、軟體工程師和諮詢顧問做起的。只有 2% 的人在一開始就從事資料科學工作。
有意思的是,資料科學家中有 27% 是博士,所以大學自然就成為培養資料科學家的搖籃,有一些高校學者直接被聘請成為資料科學家。另外,從事 IT 工作的人比從事顧問工作的人更容易成為資料科學家,所以紮實的程式設計功底絕對是個優勢。
在某種程度上,大學排名很重要
一組研究資料表明,排名靠前的高校會培養出更多資料科學家。
28% 高收入資料科學家來自世界排名前 50 的高校,不過也有 25% 來自不在排名之列的高校。
所以,這個與學校排名有一定的關係,但不是全部。知識、技術實力和實戰經驗比畢業院校更重要。實際的經驗和良好的程式設計技能是必需的,而好學校是錦上添花,但不是決定因素。
參加線上教育課程
我參加線上課程有很長一段時間了。為了獲得一份資料科學家的工作,或者為了拿到資料科學家碩士學位,需要努力自學。
40% 的資料科學家參加過線上教育課程。另外,平均每人獲得 3.33 個證照。所以,為了成為好的資料科學家,你需要通過參加線上課程、觀看視訊資料和獲得 MOOC 證照的方式進行自學。
加強你的軟技能
資料科學都是關於數學、程式設計和技術。但在現今以資料為驅動的工作場所,軟技能也是很重要的,如溝通技能、求知慾、創造力、文化智慧、情商和商業敏銳度。
求知慾
資料科學的終極目標就是探索,以創新的方式發現新的想法。好的資料科學家受求知慾的驅使,以各種創新的方式探索資料。好的公司不只是需要那些會回答問題的人,也需要那些善於提問的人。
積極性和激情
有些人能夠在學習和工作之外做一些體現自己激情的事情,這些人比較受招聘者的青睞,所以請主動加入一些資料科學專案吧,去解決一些實際的業務難題或做一些調研。創新思維能力和為舊問題尋找新方案的能力是區別優秀資料科學家和一般資料科學家的主要依據。
溝通和分析技能以及團隊合作
好的資料科學家是技術團隊和業務團隊之間的粘合劑。作為資料科學家,你需要成為好的溝通協調者。
有時候,你要以一種大家都能明白的方式來陳述事實。如果資料分析的結果暗示公司的策略需要發生變化,你需要通過良好的人際關係技能將公司帶向正確的方向。
業務敏銳度
作為資料科學家,你需要對所在行業有非常深刻的認識——行業發展趨勢、客戶的痛點、競爭對手。你要知道公司想要解決什麼樣的業務問題。資料科學家需要知道要解決什麼問題以及如何找出合適的解決方案。深入瞭解業務,並能夠將其與客戶喜好、產品生命週期和盈利目標結合在一起,是找到創造性解決方案的關鍵。
為面試做好準備
不要忘了花點時間為面試做準備。不管你的技術有多強,面試官總有辦法用一些你不知道的問題把你掃地出門。在面試中,面試官有可能問各種各樣的問題,要求候選人具備非常強的技術功底、很強的抗壓能力、創造性思維以及很好的溝通能力。面試官會通過各種方式來考察你的你的知識、程式設計技能和資料建模技能,所以提前做好準備是成功應聘的關鍵。
結論
2018 年,整個行業需要大概 100 萬個資料科學家。人工智慧、大資料和物聯網技術被用於挖掘新的業務洞見,據福布斯估計,“在 2020 年之前,它們將從還在沉睡中的同伴那裡每年偷走 1.2 萬億美元”。不過,要進入這個領域,要先確保你對統計、程式設計和資料建模有足夠的熱情,不要盲目隨波逐流或盲目追求高薪資。
但或許你會在其他領域得到更好的發展,比如經濟、應用數學或工程領域。首先要確定資料科學這條路是不是適合自己。2018 年絕對不會讓那些有志在資料科學領域一展身手的人失望。不過還是那句話,一個具備分析能力的大腦、熟練的程式設計技能、誠摯的熱情和持續自我提升的毅力將決定你的資料科學家之路會走多遠。
原文連結:
關注後回覆「AI」你懂的