公民資料科學家的侷限性

qing_yun發表於2022-10-10

正如計算機處理能力隨著時間的推移而增加一樣,我們已經開始期待技術每年都能將更多複雜的任務自動化,這在某些數字領域是正確的,但這種線性思維方式可能在資料科學和機器學習領域行不通,特別是在試圖用所謂的 “公民”資料科學家來取代全面的資料科學家時。

資料科學是一個複雜的領域,需要從業者精通多個領域。雖然定義很多,但典型的資料科學家通常被認為擁有三個方面的技能:電腦科學、數學/統計學和領域知識。毫無疑問,你已經看到了顯示這三個領域重疊的維恩圖,而罕見的資料科學家就在中間。擁有這種技能組合的人很難找到,這就是為什麼根據Salary.com的資料,資料科學家的平均工資能達到123000美元到152000美元。

資料科學家的定義有很多變化,可以看看圖靈獎得主Jeffrey Ullman對資料科學家的描述,對資料科學家所需的特定技能進行了一些調整和補充。不同行業使用資料科學的方式不同,這影響了所需的具體技能。幾年前,曾有人推動淡化這一頭銜的含義,熱愛SQL的資料分析師試圖篡改這一頭銜,以獲得更多工作的資格,並提高工資範圍。但值得慶幸的是,這種分析員的寬泛說法似乎已經過時了,而且總的來說,今天僱主和僱員對什麼是資料科學家似乎都有一些廣泛的共識。

這就把我們帶到了公民資料科學家的話題上,他們是否真的能取代非公民同胞,或者這只是另一個試圖透過改變詞語定義來改變現實中敵對處境的例子。

有一種說法是,資料科學和機器學習平臺的日益複雜化正在減少對全面的資料科學家的需求。隨著AutoML和其他工具將一些過去屬於資料科學家的任務自動化,如資料準備、特徵和模型選擇以及超引數調整,一些人認為,具有較低程度的技能和經驗的人,即公民資料科學家,可以從頭到尾成功推動資料科學專案。

這個想法得到了該領域專家的強烈反對。其中之一是MLOps工具供應商Datatron的總裁Victor Thu。Thu說,雖然公民資料科學家可能會發現使用低程式碼的AutoML工具來驅動某些領域的資料科學專案成功,但當涉及到資料科學的一個關鍵方面——資料時,由於缺乏對統計學的掌握,往往會碰壁。

對於AutoML工具可以消除對全面的資料科學家的需求的想法,Thu說:“這是一種營銷,”。“如果你試圖設計一個人工智慧或ML專案或解決方案,為公司工作,並不是簡單地把你的資料扔給一個自動化的工具來得出一些結果,並不是那樣的。你真的需要一個受過適當培訓的人來看資料,理解資料告訴你的東西,這樣你就可以建立一個合適的解決方案。”

組織一次又一次遇到的一個大障礙是資料的狀態。簡而言之,資料往往是一塌糊塗,這就是為什麼資料科學家在分析歷史資料的趨勢和最終訓練機器學習模型以對新的輸入進行預測之前,要花這麼多時間清理歷史資料。雖然透過自動化加速這項任務的資料清理工具近年來取得了長足的進步,但是資料質量存在巨大差距,這將迅速絆倒一個資料科學專案。

“今天的很多問題[來自於]我們擁有的很多資料沒有得到很好地整理,”Thu告訴Datanami。“如果提供資料的人知道資料是關於什麼的,那麼AutoML有可能會提供足夠好的結果。但如果是一個沒有受過訓練的資料科學家,基本上只是從他們現有的資料庫中收集了一堆資料,”那麼結果有可能不會好。

關於這個話題的另一個觀點來自Kjell Carllson,他是Domino data Lab的資料科學策略和宣傳負責人。

“‘公民資料科學家’(CDS)概念的發明是出於好意--促進資料、機器學習和人工智慧知識的普及,但它的危害大於益處,”這位前Forrester分析師在Domino資料實驗室網站上最近的一篇部落格文章中寫道。“由CDSes組成的企業的空想不可避免地導致了昂貴的舉措,這些舉措充其量只能帶來一次性的見解,在大多數情況下,與資料科學毫無關係。許多采取這種方法的公司最終都一無所獲。”

Carllson並沒有試圖用公民資料科學家來取代真正的資料科學家,而是希望“榮譽”資料科學家能夠幫助完成一些相關的資料科學任務,如資料準備或資料分析。但當涉及到建立機器學習模型時,不要試圖用公民資料科學家取代真正的資料科學家,除非你喜歡接到監管機構的電話。

他寫道:“這些重要的、關鍵任務的(往往是受監管的)模型不能也不應該由專業資料科學家以外的人建立,原因就像醫院不應該配備'公民外科醫生'、航空公司不應該依靠'公民飛行員'、塔樓不應該由'公民建築師'建造、你的C-suite不應該由'公民經理'組成一樣。”

也許我們只是需要重新思考公民資料科學家是什麼。公民資料科學家實際上是作為初級資料科學家發揮作用,並非承擔著作為正式資料科學家的所有責任,公民資料科學家有一套完全不同的責任。這實際上是Gartner提倡的方法,它將公民資料科學家定義為 “建立或生成利用預測性或規定性分析的模型的人,但其主要工作職能是在統計和分析領域之外”。

“組織面臨的最大斗爭是公民資料科學家的職責不明確,”Gartner的副首席分析師Anirudh Ganeshan在Gartner網站2021年6月的一篇部落格文章中說。“這種模糊性造成了專家和公民角色之間的敵對,阻礙了健康的合作和溝通。”

Ganeshan說,雖然公民資料科學家可能能夠幫助完成一些資料準備和資料分析任務,但應該在真正的資料科學家的監督下完成,他們有必要的數學和統計學培訓,以避免不良結果。

“公民資料科學家絕不能孤立地工作。”他說,“公民資料科學家不應該以孤立的方式利用自我服務的資料科學平臺。相反,他們應該與最終將負責驗證這些模型的專家資料科學家一起參與開發過程,然後再將其投入生產。”

雖然學校已經加強了資料科學的教育和培訓,但在資料科學家的供需之間仍然存在著鴻溝。試圖用具有“公民”頭銜的人取代昂貴且難以找到的資料科學家,想法和不錯,Thu建議不要這麼做。

“如果你想建立一個好的模型,你最不想削減成本的地方就是資料科學方面。”他說,“因為如果你沒有準備好你的資料,沒有從最初準備好你的資料,而你只是讓一個公民資料科學家來做,你實際上會在管道上產生更多的成本,因為你可能會遇到下游的監管合規問題。”

作者:

來自 “ https://www.datanami.com/2022/10/07/the-limits-of- ”,原文連結:http://blog.itpub.net/69925873/viewspace-2917563/,如需轉載,請註明出處,否則將追究法律責任。

相關文章