機器學習2020年回顧 - Kristóf
2020年,我們在機器學習領域取得了很大進步。讓我們回顧一下機器學習和資料科學領域的2020年。
可解釋Interpretable的機器學習/Explainable的AI
從開發方面來說,我們曾經稱機器學習模型為黑匣子,甚至不想解釋其工作機制。我們只是悠閒地等待著,企業將只是簡單地信任我們並接受這些黑盒模型。這根本不是企業想要的。對於將要使用這些解決方案並必須解決他們所犯錯誤的人們來說,這還不夠。人們不必承擔模型的真實性後果。
如果預測沒有任何根據,則使用者必須盲目地信任模型。儘管如果人們理解了該模型為什麼要說的話,那麼可以增強對它的信任。這一領域今年引起了廣泛關注,並且有望在2021年繼續下去。之所以成為該領域最重要的領域之一,是因為:
- 大多數大公司仍在進行數字化轉型。他們只是在探索最新的技術解決方案,以採用他們不理解並依賴的系統,而這是行不通的。理解ML模型進行預測時會發生什麼,無疑將加速這些系統的普及。
- 不僅因為歐盟傾向於解釋自動化決策過程的“解釋權”條款,而且由於現在購買,某些行業(例如銀行業和保險業)必須使用其所採用的模型可以解釋的。
- 對模型的信任在醫學和醫療保健領域更為重要,在這些領域中,這些系統可以對人類產生真正的影響。向人們提供不僅是結果的更多資訊,還可以增加他們對預測的信任。
該列表可能包含更多示例,但是我想您知道該領域非常重要,如果我們想取得進展並在市場中傳播所謂的“ AI驅動的解決方案”,我們將不再忽略它。
自動化機器學習
今年,AutoML備受關注,多家公司正在開發自己的解決方案。我個人對此有一些擔憂,這並不是因為擔心自動機器學習會取代我的工作。
AutoML是自動化建模過程併為我們生成新功能,執行資料預處理階段,選擇模型並調整其超引數的重要領域。
到目前為止,這還不錯,但Auto ML是或應該代替資料科學團隊的工具。使用AutoML工具,您可以節省時間並以資料科學家的身份自動化建模過程,並可以相對快地接收可以呈現的結果。但是,僅一步之遙,它絕對無法完成整個CRISP-DM過程。順便說一句,這是最重要的一步,但沒有上下文,我們將僅收到一個模型,而不是問題的解決方案。
我們應該承認兩家大型雲提供商(AWS,GCP和Azure)在其AutoML解決方案方面都取得了不錯的進展。這項競賽的領先者是H2O AutoML,它不僅提供最佳的準確性,而且由於其易於使用的功能而在AutoML使用者中如此流行。我們還應該提到AutoKeras,它於今年初首次正式釋出。它依賴於流行的深度學習庫Keras和Tensorflow。準確性不是我們應該跟蹤的唯一關鍵指標,可伸縮性,靈活性和透明度幾乎一樣重要。
全棧資料科學家
在Web開發領域,全棧開發人員已經存在了數年。這些特殊的物種在資料領域的發展只是時間問題。到目前為止,資料科學家已經知道使用什麼以及如何使用,例如用於計算機視覺的CNN模型,用於表格資料的基於樹的方法以及針對NLP問題建議使用的轉換器。現在有這麼多先進的模型,我們只需要知道如何使用它們即可。這意味著對於資料科學專案而言,資料預處理和建模不再是最困難的部分。
資料科學團隊面臨的主要挑戰是在生產中部署和維護模型。因此,MLOps變得越來越重要,軟體工程師和DevOps技能也受到了資料科學家的高度讚賞。建立一個僅在本地執行的良好模型已不足以構建一個端到端系統,其中包括對解決方案進行dockering處理並在本地或雲中進行操作,這是資料科學家的更合理期望。
人工智慧先驅:AlphaFold
AlphaFold可以準確預測蛋白質結構的3D模型,並具有加速生物學各個領域研究的潛力。AlphaFold可以根據其氨基酸序列準確預測蛋白質的形狀。由20種不同型別的氨基酸組合而成的蛋白質超過2億種。到目前為止,科學家只揭示了3D蛋白模型的片段。在蛋白質摺疊的全球距離測試中,AlphaFold的匹配率超過90%,這意味著他們解決了蛋白質摺疊的問題。這項巨大的成就並不能直接對我們的生活產生如此巨大的影響,但可以加速許多領域的研究進展
GPT-3
最新一代的OpenAI語言預測模型。GPT-3生成的文字的質量是如此完美,以至於幾乎不可能將它們與人類手寫的文字區分開。GPT-3可以建立具有語言結構的任何內容,這意味著它可以回答問題,撰寫論文,總結長篇文章,翻譯語言,記錄備忘,甚至建立計算機程式碼。GPT-3及其祖先是經過預先訓練的模型,因此使用者可以將文字作為輸入提供給模型,併為其生成輸出。為了能夠在如此高的水平上執行,OpenAI必須花費約460萬美元來訓練模型。結果令人著迷,但功能如此強大,以至於普通人尚未開啟它,因此要訪問它,您應該從OpenAI請求它並加入其等待列表。一旦釋出,Microsoft將在Azure上對其進行操作。
總結
從很多方面來看,2020年是有趣的一年,我認為2021年將為我們帶來幾個新的令人興奮的話題。對可解釋的AI的需求將更加迫切,全棧資料科學家的興起將變得越來越重要,並且對MLOps的關注將比以往任何時候都要多。我對GPT-3 API非常好奇,迫不及待想要使用它。我還認為,要感覺到AlphaFold取得的巨大成就的實際結果距離我們還有幾年的時間。因此,這是我每年對機器學習和資料科學領域中最有趣的話題的回顧
相關文章
- 2020 年的 PHP 回顧與展望PHP
- 2020年總結回顧去年的黑歷史
- 回顧工作5年
- 回顧·機器學習/深度學習工程實戰機器學習深度學習
- 機器學習回顧篇(3):線性迴歸機器學習
- 兩年的工作回顧
- 機器學習回顧篇(2):最小二乘法機器學習
- 回顧 2020 年 GitHub 的大事件,你知道多少?Github事件
- 回顧大學本科三年
- 新的一年,回顧我寫的《PHPer面試2020》PHP面試
- Epic遊戲商城 2020 年回顧 使用者超1.6億遊戲
- 前端工作兩年多的回顧前端
- 我的2020回顧——技術篇
- 吳恩達機器學習筆記 —— 3 線性迴歸回顧吳恩達機器學習筆記
- 《Booth 空箱》發售一週年回顧boot
- Cloudflare Radar 2021 年回顧Cloud
- WordPress10週年資料回顧
- 失敗的十年,回顧反思
- 回顧2020年:遊戲廠商生死考,棋牌廠商遭重錘遊戲
- 2021年資料庫回顧 - OtterTune資料庫
- 站立工作的第一年回顧
- 圖靈成立七週年——經典回顧圖靈
- 基礎回顧
- Git指令回顧Git
- 年度回顧:2018年度機器學習50大熱門網文機器學習
- 報告發布 | 2020年81748例網際網路安全事件回顧分析事件
- 2020年CTS音視訊開發者大會圓滿落幕 回顧櫻花盛放時
- 回顧2016年 | 掘金技術徵文
- 2016年 iOS 技術圈回顧iOS
- 2016年iOS技術圈回顧iOS
- 2015年商用無人機市場回顧無人機
- 大學畢業4年-回顧和總結-序
- 2017回顧與2018前瞻:機器學習與人工智慧機器學習人工智慧
- 活動精彩回顧|GopherChina 2019乾貨回顧!Go
- js回顧:原型鏈JS原型
- PHP 回顧之 cookiePHPCookie
- 回顧 crash log 分析
- javascript知識回顧JavaScript