AutoML功能解析

李博Garvin發表於2018-08-31

背景介紹

如果你用過機器學習演算法,那一定體驗被演算法調參支配的恐怖。面對錯綜複雜的演算法引數,演算法使用者們往往要花費無盡的黑夜去不斷嘗試,猶如大海撈針。有的時候加班到深夜,終於找到了一個靠譜的引數組合,然而找到的引數組合真的是最優的麼?天知道。

然而在搭建機器學習鏈路的過程中,往往不止調參這一步耗時耗力。好不容易生成了演算法模型,怎麼把模型部署成服務供手機、PC這些終端呼叫也是困擾開發同學的一大難題。有的時候,為了打通這樣的鏈路,要耗費整晚的時間除錯不同格式的模型和服務端的關聯。

人工智慧服務在便捷了人類生活的同時,能不能也為廣大演算法工程師提供人性化的開發環境呢?減少黑眼圈是演算法工程師共同的心願。對於這個問題,PAI給出了答案,今日PAI重磅釋出全套自動化機器學習引擎,用機器學習的方式解決機器學習流程的問題。

AutoML整體介紹

下面看看什麼是PAI-AutoML, AutoML顧名思義,就是將機器學習整個流程做到自動化。機器學習資料上傳之後的流程大致可以分為3個步驟:模型訓練、模型評估、模型部署。

PAI自動調參

PAI自動調參功能對於資深演算法使用者以及演算法小白都有很大價值:

  • 針對小白使用者:小白使用者不清楚每種演算法引數在演算法計算過程中的數學原理,往往對調參一頭霧水,所以自動調參可以快速幫助這部分使用者解決問題
  • 針對資深使用者:資深使用者對於調參往往有一定經驗,但是這種經驗往往只能在大方向上指導調參工作,對於一些細節引數仍需要不斷重複去嘗試。比如一個引數範圍0~100,資深使用者可以通過經驗確定引數設定為90或者80的結果,但是在更小粒度上,比如81和82哪個對結果更好,資深使用者也需要手動去實驗。而自定調參功能可以代替這部分的重複性勞動。

目前行業中主流的調參思想主要是基於Parallel Search,以grid search和random search為代表,系統通過隨機原理,不斷取樣可能的引數組合,通過不停迭代去嘗試找到最優的引數組,每次探索的過程彼此獨立。優勢是不容易陷入區域性最優解,可以在更廣闊的引數空間探索。劣勢是每次探索都是隨機性的,缺乏資訊的積累過程,耗費計算資源。

PAI提供了原創的Evolutionary Optimizer進化式的調參方法,讓模型的每一次迭代都自動在上一輪較優的引數集區間中進行開發,內建的高效演算法可以快速的幫你找到最合適的引數組合,大大減少計算資源消耗以及引數探索的次數。你要做的只是泡上一壺茶,靜靜等待奇蹟的降臨。

PAI進化式調參迭代效果圖,可以清楚地看到每一輪迭代對於效果的提升:

PAI模型自動評估

PAI AutoML提供多維度的演算法評估方法,只要在F1Score、Precision、Recall、AUC中選擇自己所需要的評估指標,系統會自動完成模型評估工作並將服務下發到下游的訓練環境,所有評估流程完全不需人工參與。

模型排序表:

模型下發配置:

PAI模型一鍵釋出

生成了模型,可以在PAI平臺一鍵將模型釋出成API服務。只要點選部署按鈕,就會列出當前實驗可部署的模型,選擇需要的模型就可以一鍵完成部署,是不是很簡單。

部署完成後會自動跳轉到線上服務管控平臺,在這裡可以進行全部的模型管理相關工作。

客戶案例

PAI-AutoML看上去很厲害,是不是真正能幫助到使用者的業務呢,下面看下PAI在阿里雲平臺上使用者使用之後的反饋。先介紹下客戶:椰子傳媒是一家專注在移動原生互動視訊廣告的公司,在獎勵視訊行業深耕了2年多,隨著業務規模的增長,多平臺、多渠道,多模式下的智慧投放效率問題越來越突出。

椰子科技技術負責人說:阿里PAI平臺提供了一個低門檻、快速上手的服務能力,使得業務可以快速的對接到基於大資料的機器學習平臺上,有力的推動公司業務的快速發展。基於PAI AutoML引擎,可以讓我們更快速的在不同平臺和模式下定位目標使用者。

椰子傳媒通過使用PAI AutoML引擎,調參服務幫助模型提升精度40%,自動化部署預計全部業務上線後可達千萬次,節省人力20%-30%,最重要的是將業務構建在機器學習服務平臺的時間縮短了至少半年時間。

架構圖:

總結

PAI AutoML引擎擬在最大限度上減少機器學習業務搭建成本,目前上線的模型訓練引數調優和模型一鍵自動部署服務已經在節約人力開銷方面提供幫助。未來PAI平臺還會在這個方向繼續投入,真正做到讓機器學習不再是個高門檻技術,讓人工智慧觸手可及。

相關文章