資料科學家已死?AutoML使得資料科學更加普及化 - enterpriseai

banq發表於2021-02-27

在過去十年中,“資料科學家”一直是最受歡迎的職位之一。但是再過十年,由於諸如自動機器學習或AutoML之類的技術,該角色將看起來非常不同。
新技術已經在幫助減少組織從頭開始構建傳統資料科學家的生硬AI和ML模型的需求。取而代之的是,在大多陣列織中,軟體開發人員甚至是非技術人員都將承擔繁重的工作,並使用功能強大的軟體工具來自動化資料科學家如今處理的許多工。
這種過渡已經在進行中:根據Dice.com的一項研究,資料工程師(具有資料相關技能的開發人員)是2019年增長最快的技術工作類別,其增長速度幾乎是對資料科學家的需求的兩倍。隨著這一趨勢的繼續,資料科學家將轉而擔任更多的諮詢角色,為組織指導資料策略。
要了解這種轉變,我們首先必須瞭解當今資料科學成熟度的範圍以及它將如何發展。
 

大多數情況下,“本土” ML演算法都是無法實現的
財富500強公司和其他大型企業通常具有最高水平的機器學習成熟度,因為它們擁有開發自己的專有ML應用程式所需的資源和技術人才。這些組織通常使用TensorFlow等開放原始碼工具以及適用於Python的機器學習庫Scikit-learn來聘請經過正式認證的資料科學家團隊來構建自定義ML演算法。
要成功完成這些專案,需要資料科學人才,業務直覺和對要解決的特定問題的深入瞭解的罕見組合。它還非常耗費人力,涉及需要高度技術技能的高度手動過程。資料科學家可以透過將資料手動匯入到完全空白的Jupyter筆記本中,進行探索性資料分析,評估不同的演算法和設計新功能來開始一個專案,然後透過手工仔細地調整模型來結束。
這些型別的複雜的定製專案通常可以提供比自動化工具更準確的結果。但是,考慮到所涉及的投資和風險水平以及與簡單策略相比有時會獲得的邊際收益,毫不奇怪的是,這些專案通常是由擁有豐富歷史資料儲存庫和大量資金來聘請熟練資源的大型企業實施的。
對於大多陣列織而言,這種方法根本不經濟,也不需要實現預期的業務成果。在資料科學人才,計算資源和工具方面的投資可能不值得。
相反,組織可以使用許多其他工具,其中最重要的是一組稱為AutoML的機器學習自動化工具。
 

AutoML提供了靈活的,可定製的替代方案
對於缺乏資源來從頭開始構建演算法的組織,但比起現成的ML應用程式(如AWS Lex或Azure語言理解)所能提供的靈活性,AutoML是理想的解決方案。透過將傳統機器學習工作流程的手動步驟壓縮到可配置的堆疊中,AutoML使開發人員能夠將資料科學元素整合到專案中,而無需進行學術性的資料科學培訓。
建立自定義配置,最佳化輸入並通常在AutoML沙箱中播放所需的全部軟體工程技能集。AutoML在大型,相對通用的資料集(例如金融交易資料或來自網路媒體資源的點選流資料)中的效果特別好。
如今,許多具有學術證照的資料科學家都看不起使用AutoML構建的解決方案,因為它們通常提供的結果不如“本土”模型準確。但是,對於大多數業務任務而言,準確度略低仍然綽綽有餘-AutoML的更高可訪問性使其值得進行折衷。
 

資料科學的民主化
AutoML不僅僅是構建“足夠好”的ML解決方案的有用工具:最終,這些型別的自動化工具將成為推動資料科學民主化的動力。
透過減少構建ML應用程式的准入門檻,AutoML工具包擴充套件了能夠找到針對企業資料問題的創新解決方案的員工隊伍。
該領域也不限於開發人員。
許多供應商還推出了足夠易於非技術人員使用的AutoML產品,從而建立了“公民資料科學家”,他們有權解決他們在日常工作中遇到的資料問題。雖然它們不那麼靈活,但是現成的ML應用程式還可以透過向資源較少,資源較少的組織的員工介紹基本的自動化和資料功能來幫助提高資料科學素養。未來幾年,這兩種技術都將促進資料素養在整個企業中的傳播。
 

從資料科學家已死到資料科學家萬歲
民主化的過程也將改變資料科學家的角色。儘管該角色將繼續在資料成熟度各個層面上增加價值,但他們通常會處理的某些任務將實現自動化,這將促使資料科學家擔當顧問的角色。資料科學家將花大量時間建議組織如何使用AutoML和其他自動化工具解決資料問題,而不是從頭開始花費時間來建立模型。將來,對工具的熟悉將成為他們技能的一部分,這是當今開發人員應熟悉多種程式語言的方式。
到2030年,資料科學家的日常工作量將與今天的工作量截然不同-但這是一件好事。這將意味著可訪問的工具已經變得如此強大,員工的資料素養如此之深,以至於大多陣列織幾乎不需要從頭開始構建ML模型。
取而代之的是,資料科學家將把他們的技能和培訓應用到高層次的戰略任務中,從而獲得更佳的業務成果,並使它們對於所服務的組織而言更加不可缺少。
 

相關文章