機器學習2020年回顧 - Kristóf

banq發表於2020-12-29

2020年,我們在機器學習領域取得了很大進步。讓我們回顧一下機器學習和資料科學領域的2020年。
 

可解釋Interpretable的機器學習/Explainable的AI
從開發方面來說,我們曾經稱機器學習模型為黑匣子,甚至不想解釋其工作機制。我們只是悠閒地等待著,企業將只是簡單地信任我們並接受這些黑盒模型。這根本不是企業想要的。對於將要使用這些解決方案並必須解決他們所犯錯誤的人們來說,這還不夠。人們不必承擔模型的真實性後果。
如果預測沒有任何根據,則使用者必須盲目地信任模型。儘管如果人們理解了該模型為什麼要說的話,那麼可以增強對它的信任。這一領域今年引起了廣泛關注,並且有望在2021年繼續下去。之所以成為該領域最重要的領域之一,是因為:

  1. 大多數大公司仍在進行數字化轉型。他們只是在探索最新的技術解決方案,以採用他們不理解並依賴的系統,而這是行不通的。理解ML模型進行預測時會發生什麼,無疑將加速這些系統的普及。
  2. 不僅因為歐盟傾向於解釋自動化決策過程的“解釋權”條款,而且由於現在購買,某些行業(例如銀行業和保險業)必須使用其所採用的模型可以解釋的。
  3. 對模型的信任在醫學和醫療保健領域更為重要,在這些領域中,這些系統可以對人類產生真正的影響。向人們提供不僅是結果的更多資訊,還可以增加他們對預測的信任。

該列表可能包含更多示例,但是我想您知道該領域非常重要,如果我們想取得進展並在市場中傳播所謂的“ AI驅動的解決方案”,我們將不再忽略它。
 

自動化機器學習
今年,AutoML備受關注,多家公司正在開發自己的解決方案。我個人對此有一些擔憂,這並不是因為擔心自動機器學習會取代我的工作。
AutoML是自動化建模過程併為我們生成新功能,執行資料預處理階段,選擇模型並調整其超引數的重要領域。
到目前為止,這還不錯,但Auto ML是或應該代替資料科學團隊的工具。使用AutoML工具,您可以節省時間並以資料科學家的身份自動化建模過程,並可以相對快地接收可以呈現的結果。但是,僅一步之遙,它絕對無法完成整個CRISP-DM過程。順便說一句,這是最重要的一步,但沒有上下文,我們將僅收到一個模型,而不是問題的解決方案。
我們應該承認兩家大型雲提供商(AWS,GCP和Azure)在其AutoML解決方案方面都取得了不錯的進展。這項競賽的領先者是H2O AutoML,它不僅提供最佳的準確性,而且由於其易於使用的功能而在AutoML使用者中如此流行。我們還應該提到AutoKeras,它於今年初首次正式釋出。它依賴於流行的深度學習庫Keras和Tensorflow。準確性不是我們應該跟蹤的唯一關鍵指標,可伸縮性,靈活性和透明度幾乎一樣重要。
 

全棧資料科學家
在Web開發領域,全棧開發人員已經存在了數年。這些特殊的物種在資料領域的發展只是時間問題。到目前為止,資料科學家已經知道使用什麼以及如何使用,例如用於計算機視覺的CNN模型,用於表格資料的基於樹的方法以及針對NLP問題建議使用的轉換器。現在有這麼多先進的模型,我們只需要知道如何使用它們即可。這意味著對於資料科學專案而言,資料預處理和建模不再是最困難的部分。
資料科學團隊面臨的主要挑戰是在生產中部署和維護模型。因此,MLOps變得越來越重要,軟體工程師和DevOps技能也受到了資料科學家的高度讚賞。建立一個僅在本地執行的良好模型已不足以構建一個端到端系統,其中包括對解決方案進行dockering處理並在本地或雲中進行操作,這是資料科學家的更合理期望。
 

人工智慧先驅:AlphaFold
AlphaFold可以準確預測蛋白質結構的3D模型,並具有加速生物學各個領域研究的潛力。AlphaFold可以根據其氨基酸序列準確預測蛋白質的形狀。由20種不同型別的氨基酸組合而成的蛋白質超過2億種。到目前為止,科學家只揭示了3D蛋白模型的片段。在蛋白質摺疊的全球距離測試中,AlphaFold的匹配率超過90%,這意味著他們解決了蛋白質摺疊的問題。這項巨大的成就並不能直接對我們的生活產生如此巨大的影響,但可以加速許多領域的研究進展
 

GPT-3
最新一代的OpenAI語言預測模型。GPT-3生成的文字的質量是如此完美,以至於幾乎不可能將它們與人類手寫的文字區分開。GPT-3可以建立具有語言結構的任何內容,這意味著它可以回答問題,撰寫論文,總結長篇文章,翻譯語言,記錄備忘,甚至建立計算機程式碼。GPT-3及其祖先是經過預先訓練的模型,因此使用者可以將文字作為輸入提供給模型,併為其生成輸出。為了能夠在如此高的水平上執行,OpenAI必須花費約460萬美元來訓練模型。結果令人著迷,但功能如此強大,以至於普通人尚未開啟它,因此要訪問它,您應該從OpenAI請求它並加入其等待列表。一旦釋出,Microsoft將在Azure上對其進行操作。
 

總結
從很多方面來看,2020年是有趣的一年,我認為2021年將為我們帶來幾個新的令人興奮的話題。對可解釋的AI的需求將更加迫切,全棧資料科學家的興起將變得越來越重要,並且對MLOps的關注將比以往任何時候都要多。我對GPT-3 API非常好奇,迫不及待想要使用它。我還認為,要感覺到AlphaFold取得的巨大成就的實際結果距離我們還有幾年的時間。因此,這是我每年對機器學習和資料科學領域中最有趣的話題的回顧

相關文章