我們正在進入資料科學實踐的新階段,即“無程式碼”時代。 像所有重大的變化一樣,這個變化還沒有在實踐中清晰地體現,但這個變化影響深遠,發展趨勢非常明顯。
現在,每一週都會有一些自動程式碼行業的最新進展。創業公司的整合產品是有一些進展的,不過更多見的是基於現有分析平臺供應商新新增的功能或模組。
自從自動化機器學習(AML)平臺出現以來,我一直在關注它們的成長。
我在2016年春天,撰寫了一篇關於它們的文章,題目是“資料科學家將被自動化機器學習平臺取代並在2025年失業!”。
當然,我的預測不是絕對準確的,但在過去的兩年半里,自動化功能在我們機器學習行業中的發展確實非常引人注目。
不需要人工寫程式碼的資料科學
無程式碼資料科學(即不需要人工寫程式碼的資料科學),或自動機器學習,或者可以稱為簡單易用的 “增強型”資料科學產品,範圍包括:
附帶指導的平臺:具有高度指導功能的建模程式平臺(當然還是需要使用者完成一定步驟,這樣的平臺有BigML,SAS,Alteryx)。經典的簡易操作平臺(drag-and-drop )是這一代的基礎。
自動機器學習(AML):全自動機器學習平臺(例如DataRobot)。
會話分析:在最新版本中,使用者只要提出可以透過常用英語解決的問題,平臺就會提供最佳答案,選擇資料,特徵,建模技術,甚至可能是最佳資料視覺化。
不僅僅為了先進的分析
我們工具的智慧擴充套件從預測和規範建模,已經擴充套件到了資料混合和資料準備領域,甚至擴充套件到資料視覺設計的領域。這意味著無程式碼智慧功能可提供傳統商學院的商業智慧分析師(BI business analysts)使用,當然也可以為公民資料學者(又名Citizen Data Scientists)提供支援。
這種演變的市場驅動因素眾所周知。在高階分析和人工智慧中,核心的困難在於精英資料科學家的短缺,以及其高昂的成本和迫切的需求。在這個領域,最需要的是洞察力,效率和一致性。簡而言之,就是效率高,速度快。
然而,上述工具在資料準備,混合,特徵識別領域,對資料科學家來說也很重要,但是這些工具真正吸引的是有著更多資料分析師/ BI從業者的世界。在這個世界中,經典靜態資料的ETL仍然是一個巨大的負擔和時間的延遲,它正在從IT專家的功能迅速轉向自助服務。
簡易平臺->寫程式碼->回到簡易平臺
我在2001年開始從事資料科學研究時,SAS和SPSS是主要的工具,並且已經從他們的專有程式碼轉向簡易操作平臺,這便是機器學習自動化的最早形式。
在這之後的7~8年,學術界轉向R語言教學,因為雖然SAS和SPSS向學生免費開放,但是他們仍然向教師收費(儘管給學術界的折扣很大)。但是,R一直是免費的。
然後我們就到了這樣一個時代,一直持續到今天。在這個時代裡,成為資料科學家意味著成為程式設計師。用程式碼作業,這就是當前這一代資料科學家受到教育的方式,也是他們在資料科學實踐的方式。
人們有著一個並不正確的誤解:在簡易作業系統平臺中,不允許微小超引數的除錯,而這應該被允許。如果你曾經使用過SAS Enterprise Miner或其競爭對手的平臺上,那麼您知道這個想法並不對,事實上,微調非常容易做到。
在我的腦海裡,總需要寫程式碼是一個不必要的彎路—這往往會讓新的資料科學實踐者忽視基礎知識,而致力於學習另一種程式語言。
模型質量怎麼樣
我們傾向於將“提高模型的準確性”視為高階分析是否成功的標準。有一種觀念認為,依靠自動化的無程式碼解決方案會丟失部分準確性。事實並非如此。
像DataRobot,Tazi.ai和OneClick.ai這樣的AutoML平臺不僅支援並行執行數百種模型型別,還包括超引數,而且它們還可以執行變換,特徵選擇甚至進行一些特徵工程。在準確度上擊敗這樣的平臺是很困難的。
需要注意的是,應用特徵工程領域的專業知識仍然是人類的優勢。
也許更重要的是,你在開發上花費幾周時間得到的結果和這些AutoML平臺提供的幾天甚至幾小時的結果相似,那到底哪個更值?
無程式碼化帶來更深遠的影響
在我看來,無程式碼化的最大受益者實際上是傳統資料分析師和資料學者,他們仍然最關注BI靜態資料。獨立的資料混合和準備平臺,對這個群體(以及工作量將大大減輕的IT工作者)來說,是一個巨大的好處。
這些無程式碼化資料準備平臺,例如ClearStory Data,Paxata和Trifacta正在迅速將機器學習功能納入它們的流程,幫助使用者選擇合適的資料來源進行資料混合,判斷哪些資料項有價值,甚至它們的功能擴充套件到了特徵工程和特徵選擇。
現代資料平臺正在使用嵌入式機器學習技術,作為智慧資料自動清洗或異常值處理的典範。
其他公司,例如Octopai公司,剛剛被Gartner評為“5大酷炫公司”之一,專注於讓使用者透過自動化技術快速查詢可信資料,使用機器學習和模式分析來確定不同的資料要素,建立的背景資料,以及資料的預使用和轉換之間的關係。
這些平臺還透過強制執行許可權以及保護PID和其他類似敏感資料來實現資料安全的自助服務。
甚至資料視覺化技術的領導者Tableau也正在使用自然語言處理(NLP)和其他機器學習(ML)工具推出會話分析功能,允許使用者以簡單的英語提出查詢要求,並收到最優視覺化效果。
這對資料科學家而言究竟意味著什麼
Gartner認為,在兩年內,即到2020年前,公民資料學者(即citizen data scientist)所完成的高階分析將在數量上和價值上超越資料科學家。他們建議資料科學家專注於專業問題,並將企業級模型嵌入到應用程式中。
我不同意此想法,這似乎會使資料科學家降級去做QA和產品實施(Implementation)的工作。這不是我們的本職工作。
我的看法是,由於較小的資料科學家團隊能夠處理越來越多的專案,這將迅速將高階分析的使用範圍擴大到更深入的專案組織層次。
在一兩年之間的我們的技術已經整合了資料科學家必備的資料混合以及資料清洗功能,以及選擇最適合某個專案的預測演算法的能力。這正是自動無程式碼化資料科學工具正在取代的領域。
需要建立,監控和管理成百上千個模型的公司是這種技術最早的採用者,特別是保險和金融服務行業。
那還剩下了什麼?剩下了分析最佳化師的高階角色。麥肯錫最近認為這是任何資料科學專案中最重要的角色。簡而言之,分析最佳化師的工作如下:
1、引導並識別在公司業務中,在哪裡資料分析可以發揮作用。
2、最佳化分析的流程排序。
3、在專案中,能夠勝任專案經理。
4、積極採用有效最佳化成本效益解決方案。
換句話說,將業務問題轉化為資料科學專案,並引導最佳化各種型別的風險和成果,使這些專案優先化。
那所謂的人工智慧呢?
是的,我們最近在影像,文字和語音處理中使用卷積神經網路(CNNs)和遞迴神經網路(RNNs)的最新進展中,也正在促進迅速推廣自動化無程式碼化的解決方案。它們發展的速度還不夠快,是因為缺少具有深度學習技能的資料科學家,這個問題比普通的資料科學行業還要嚴重。
微軟和谷歌都在去年推出了自動深度學習平臺。這些平臺從遷移學習起步,正朝向完整的AutoDL平臺進發。詳細請參閱微軟 Custom Vision Services和Google的類似條目Cloud AutoML。
還有一些研究整合AutoDL平臺的初創公司。我們今年早些時候關注了OneClick.AI。它們包括了完整的AutoML和AutoDL平臺。 Gartner最近提名DimensionalMechanics稱其擁有AutoDL平臺的“5大炫酷公司”之一。
曾經有一段時間,我試圖持續更新和整合無程式碼化AutoML和AutoDL的供應商列表,並提供有關其功能的更新。但因為該行業的快速發展,使得這個整合的工作量急速上升。
我希望Gartner或其他一些團隊能夠繼續全面的對這個領域進行關注。在2017年,Gartner做了一個相當詳細的報告,名為“未來資料和分析的深度分析技術”。這是一個非常棒的供應商總結報告,雖然有一些我留意的供應商並沒有被囊括其中。
報告連結:https://www.gartner.com/doc/3773164/augmented-analytics-future-data-analytics
據我所知,當前沒有全面整合所有完全自動化或基本全自動化功能平臺供應商的統計表格。然而,Gartner的報告中,你可以看到,從IBM和SAS這些大企業,到小型的初創公司都在提供類似服務。
關於作者:Bill Vorhies是Data Science Central的編輯總監,自2001年以來一直從事資料科學工作。