用AI創造AI,人工智慧無程式碼時代來臨

大資料文摘發表於2019-04-17


大資料文摘出品

記者:雲舟

瑪麗·雪萊在創作世界上第一部科幻小說《科學怪人》(又譯:弗蘭肯斯坦)的時候,恐怕沒法預見到在一個多世紀後的今天,真的會出現一種脫胎於虛無,卻能判斷、能決策的存在

用AI創造AI,人工智慧無程式碼時代來臨

瑪麗·雪萊作品《科學怪人》插圖

人工智慧自動化近年來受到了廣泛的關注,但在真正的建模工程師和業務人員眼中,卻一直只是玩具級別的應用。不但限制重重,繁瑣的程式設計和抽象的引數設定對於小白使用者來說,也遠遠稱不上“自動化”。

誰能想到,早在2015年,矽谷就成立了一家致力於開發“幫助創造AI的AI公司。日前,R2.ai的創始人兼CEO黃一文接受了我們的採訪,為我們講述了他們對於人工智慧自動化行業的發展趨勢以及產品技術核心的認識。

迴歸本質——業務專家才是機器學習問題的最適解決者

AutoML對於人工智慧社群來說並不能說是一個新潮的概念,國內國外的企業都陸續推出了自己的AutoML平臺。但這些平臺的使用者和服務物件往往是建模工程師,雖然能很大程度上提升建模工程師的工作效率,但對於常變常新的業務問題來說,卻仍然慢了半拍。

事實上,六年前的機器學習自動化產品就已經能夠在十幾分鍾內解決TB級資料的建模問題了,但對於希望在業務中應用機器學習的企業來說,往往苦於尋找優秀的建模工程師和探索真正有用的應用場景;即便對於已經開始了機器學習應用的企業來說,緩慢的開發速度和低下的模型質量也往往使得企業在高昂的投入面前望而卻步。

換句話說,“傳統的建模流程+超高速的機器學習自動化平臺”這一模式並沒有突破企業在實際應用中落地機器學習的瓶頸。

“我們認為業務人員其實是最適合應用機器學習來解決問題的角色,讓正確的人使用正確的工具來解決正確的問題,是我們想要達到的效果”,黃一文說。

要最大化地利用企業的資料,讓需求多樣的企業真的能夠在業務當中落地機器學習技術,一個普適性強,簡單易用且高度自動化的高質量機器學習平臺是不可或缺的。而這恰恰是R2 Learn 2.0的技術特點。

R2.ai也在近日推出了其最新一代AutoML產品R2 Learn 2.0版本該產品目前正在進行免費試用活動,感興趣的讀者可以自行取閱?

https://www.r2ai.com.cn/product

用AI創造AI,人工智慧無程式碼時代來臨

R2.ai快速將資料轉換為競爭優勢


傻瓜式操作,零程式碼實現機器學習

小白的福音,資料科學家的得力助手

在R2 Learn 2.0中,R2.ai為業務問題提供了一個端到端、高自動化的機器學習解決方案。黃一文表示,具有廣泛適用性的AutoML類產品對於產品化、優化及模型整合豐富度的要求很高,在R2 Learn 2.0中,使用者甚至僅需滑鼠操作,不斷根據平臺的提示進行選擇,就可以在上傳資料後迅速建立模型

不僅如此,在自動建模的過程中,R2 Learn 2.0還實現了資料清洗、修復,特徵工程,模型評估等傳統建模過程單元的自動化。

用AI創造AI,人工智慧無程式碼時代來臨

如在上圖中,使用者通過 R2 Learn平臺,可發現該資料集存在兩個問題:

1.目標變數有3個水平值

2.預測變數裡存在缺失值和資料型別錯配

解決這些問題,使用者僅需點選Continue,平臺就會引導使用者選擇目標變數中的唯一值,並對預測變數資料質量問題進行自動修復。

通過這樣傻瓜式的引導,即便是毫無機器學習知識和經驗的業務人員也能快速為業務問題進行鍼對性建模,從而實時滿足業務需求。而對於掌握有機器學習領域知識的資料科學家或分析師來說,R2 Learn 2.0平臺還提供了高階編輯模式,使用者不但能夠看到模型從資料預處理到模型評估的全過程,還能根據自己的經驗和偏好對模型進行調整,這也體現了平臺的高度透明性和可解釋性。

自學習,自調參——AutoML迎來質變

對任何一個建模工程師來說,從0開始建立一個模型都足以成為不眠之夜的噩夢。談到傳統建模過程的複雜性時,黃一文說道:“建模的挑戰主要是由建模過程在每一個步驟都有多元選擇造成的,比如修復資料質量可能就有三四種不同的方式,變數工程有十幾種不同的方式,演算法的選擇和演算法的引數調整空間就更大了。這些選擇會使得建模的複雜性指數型上升。”

從本質上講,無論是對於人類工程師還是機器,建模都是一個不斷試錯的過程。人類的優勢在於可以憑藉經驗和直覺找到一個不錯的試錯起點,但這不僅對建模工程師有很高的要求,還會使得模型的成功在很大程度上依賴於運氣。而對於機器來說,不斷嘗試正是機器最適合做的事情,輔以高效的優化演算法,機器可以在短時間內嘗試大量模型並向使用者推薦最優結果。

R2 Learn 2.0充分利用機器的算力優勢,並開發了自學習和自調參技術來進一步提升平臺的效率和模型的準確性。

“如果模型的初始引數與最優值相距較遠,模型可能會很難收斂,也可能很容易發散到其他地方。為了找到一個合適的初始引數,我們的平臺有一套基於增強學習的知識庫,當使用者上傳了資料開始建模時,我們會將使用者的資料與我們知識庫的資料進行精準的匹配,從而使得模型從一個比較合理的超引數開始搜尋”。黃一文介紹道。

用AI創造AI,人工智慧無程式碼時代來臨

R2 Learn 2.0的系統架構

兩小時建模,全生命週期管理,再次一敗塗地的人類

效率問題是自動化機器學習需要解決的首要問題。

“要讓機器學習自動化工具在企業中真正落地,我們必須實現端到端地自動化建模”,黃一文說道:“資料修復、特徵工程、模型選擇、模型調參、模型組合等步驟其實都是相互關聯的,自動化及優化的程度越高,模型要搜尋的空間也就越大,而且是成百上千倍地擴大。”

自動化建模實際上是一個搜尋優化問題。即在所有的選項中,用最短的時間找到最優解。為了解決這一問題,R2.ai基於強化學習、遺傳演算法等開發了五種不同的優化演算法,使得平臺能夠在非常短的時間內用盡可能少的資源找到最佳模型。

R2 Learn 2.0的高效在很多應用場景中都得到了體現,在一個金融行業的應用案例中,R2 Learn 2.0需要在保證高準確性的情況下幫助一個對衝基金公司建立人工智慧交易模型。在將近100萬行和超過80個變數的資料集上,R2 Learn 2.0在兩小時內建出了一個AUC為0.78的模型,比原來的模型質量提高了12%。

“模型有不同的特點,有些模型建模速度非常快,有些模型精度非常高,有些模型效率非常高。而在金融場景中,模型的選擇是非常關鍵的”,黃一文向我們繼續介紹:“我們為R2 Learn 2.0設計了一個獨特的模擬優化技術,使用者可以將場景資訊輸入到模型中,系統會據此對模型進行重新優化,從而找到一個真正可以滿足使用者風險收益平衡需求的模型”。

用AI創造AI,人工智慧無程式碼時代來臨

通過自動模型重新擬合,R2 Learn幫助對衝基金公司應對瞬息萬變的市場

除了效率問題以外,準確性問題也是自動化機器學習工具無法迴避的挑戰。

通過端到端的全鏈建模流程整體優化,而不是幾個步驟的區域性優化,這是R2.ai可以生成更優異效能模型的法寶。

建模的每一步都是互相關聯的。整體優化包括的步驟越多,生成優異模型的機率越高。當然,這同時意味著對優化演算法的要求相應提高,這恰恰是R2.ai超越競爭對手的技術壁壘。

在一個醫療領域的案例中,醫院希望能夠通過病人的特徵資料和診斷資料預測並控制病人的再入院率。R2 Learn 2.0通過對病患的畫像、患病史、醫療診斷指標、入院記錄等海量資料的分析,運用機器學習建模技術, 成功地在短時間內構建了AUC達0.846的模型。該結果成為了醫院管理者分析並控制再住率的有效依據,大幅降低了出院病人的再入院成本,還可以給予患者更適合個人的醫療選項,提升患者的治療體驗。

用AI創造AI,人工智慧無程式碼時代來臨

R2 Learn 2.0自動建模並調參,預測再入院率

除此之外,R2 Learn 2.0還將全生命週期管理的概念首次植入到了機器學習自動化領域中。黃一文談道:“大部分企業現在主要關注的問題還是怎樣建出更好的模型,但實際上模型的運營也是非常重要的,這就會涉及到模型的全生命週期管理問題。”

任何機器學習模型都是基於歷史資料開發出來的,而歷史資料反映的是過去的商業狀況,所以模型其實是有保質期的。

“企業應該時刻監督模型在實際應用當中的效能,並不斷用新的資料去實時優化舊的模型,這樣才能為模型‘保鮮’”。黃一文如此建議。

AI無程式碼時代來臨

業務問題,而不只是機器學習

“我們希望企業可以用98%的時間來解決業務問題,而不是機器學習問題”,談到整個人工智慧和資料行業的未來發展時,黃一文這樣說道。“技術最終是服務於業務的,所以我認為機器學習工具的發展方向是讓使用者更快更有效地解決業務問題,與商業更好更深結合”。

外媒Interesting Engineering在報導R2.ai這家近年來快速增長的公司時使用了”new generation”一詞,我們也確實看到R2.ai為人工智慧在應用當中從0到1的落地邁出了堅實的一步。

 “企業落地人工智慧基本上可以有兩種方法,第一種是基於系統規劃,企業通過採集大量資料,搭建基礎設施,一步一步地落地人工智慧。而另外一種更推薦的方式則是先用現有的資料找到一個可以落地的場景,從小到大,而不是從大到小地開始建模。這樣能大大降低人工智慧落地的成本,也給企業更多的正反饋來進一步應用人工智慧”。黃一文為我們補充道。

那麼,資料科學家會失業嗎?

社會自動化水平的提高讓我們不得不面對嚴峻的就業形勢,人工智慧的廣泛應用更是讓大量行業的從業者面臨著失業危機,在談到資料行業從業者的職業問題時,黃一文樂觀地與我們分享道:“從歷史上來看,人類文明中每一個新技術的出現往往伴隨著新行業的出現;自動化水平的提高往往伴隨著新工作機會的出現,失業率不但不會提高,甚至還有可能降低”。

用AI創造AI,人工智慧無程式碼時代來臨


未來:授人以魚不如授人以漁

人工智慧行業的發展速度往往給人一種日新月異的感覺,但談到未來發展時,黃一文卻顯得很自信:“其實有很多技術我們在研究室當中已經做出來了,比如非監督學習,很快我們的使用者就可以在聚類、異常檢測、推薦等業務場景下應用自動化的機器學習了。”

另外,目前的R2 Learn 2.0平臺還只支援結構化的資料,在採訪的最後黃一文也表示將在未來一年著手支援自然語言處理和計算機視覺的應用場景,將非結構化資料的處理也納入到R2 Learn 2.0的自動化範疇之內。

“現在有很多人發表言論說人工智也許會摧毀人類文明。我認為他們的思維是侷限在有限的生存空間內的,但事實上我們所處的世界遠遠不止我們現在所瞭解的範圍,AI最大的存在價值之一就是它能夠幫助我們去探知未來的世界。”

黃一文繼續說道:“R2 Learn 2.0就是一個泛用性很強的AI,未來我們想做的就是幫助企業去探知更多他們還沒有了解的世界。中國人講授人以魚不如授人以漁,當人人可用的AI出現之後,企業一定能更深入地理解業務,不斷開拓新的業務邊界”。

R2.ai近期在其網站推出了產品的公開免費試用。不但為個人使用者提供了不同使用級別的線上訂閱版本,還為企業級使用者提供了企業級SaaS和本地部署產品,甚至對於基礎設施建設尚不全面的企業,也提供了雲平臺產品供其探索自動化機器學習。有需求的小夥伴請自行取用。

https://www.r2ai.com.cn/product

用AI創造AI,人工智慧無程式碼時代來臨


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2641668/,如需轉載,請註明出處,否則將追究法律責任。

相關文章