第四正規化先知:建模比Spark快416倍,支援萬億級別變數數

周建丁發表於2016-07-20

7月20日,第四正規化公司釋出了基於深度學習、強化學習和遷移學習的人工智慧平臺——“第四正規化·先知(Prophet)”。第四正規化CEO戴文淵表示,在3000多萬條大資料的測試環境下,先知平臺建模速度比Spark快416倍,同時採用DSN(深度稀疏網路)使得先知能夠支援萬億級別變數數,所以具有更強的表達能力,能夠更好地支援多維資料。

圖片描述

深度學習是當前最為熱門的人工智慧演算法,然而深度學習在實際使用中還遇到很多障礙,例如深度學習首先是(標記)資料飢渴型和計算飢渴型演算法,同時高精度的學習效果還需要很高階的演算法人才。此外,深度學習也不是人工智慧的全部。第四正規化首席科學家楊強教授(沒錯,就是美國人工智慧協會(AAAI)首位華人Fellow)總結了人工智慧發展的兩個主要障礙:

  1. 人工智慧行業應用推廣的門檻在於人才的稀缺和投入的巨大,培養一個合格的AI人才需要6-10年時間,加上地區發展的差異導致AI的“准入門檻”居高不下;
  2. 沒有各行各業的“大資料”支撐,沒有AI在各行業的應用及發展,AI也只能是實驗室的專案,應用之路漫長。

作為一名資深的人工智慧研究者,楊強希望實現更通用的人工智慧,包括覆蓋沒有大資料的領域。他表示,深度學習的研究目前已經達到一個高峰,而應用的探索才剛剛開始,現在應該是強化學習的時代,強化學習可以通過延遲的反饋不斷地實現模型優化,未來則屬於遷移學習,它既能夠將基於大資料訓練的模型遷移到沒有大資料的領域,同時又可以更好地支援個性化的需求。

楊強加入了他的得意弟子戴文淵的創業大計,希望整合深度學習、強化學習、遷移學習、記憶網路等演算法,將稀缺的AI人才與行業經驗變成產品,將每個行業解決方案中有價值的模組進行產品化,把科研高度與行業實戰經驗封裝到一個平臺級產品中,成為企業的商業套件、企業決策的智慧引擎。

戴文淵既是遷移學習研究者和擁護者,也曾擔任百度廣告變現演算法的核心負責人、百度鳳巢的總架構師。楊強認為,團隊的演算法經驗和工程經驗搭配能夠實現第四正規化“AI for everyone”的目標。

經過1年半的研發,第四正規化推出了商用的先知平臺,支援超過3萬臺機器、能處理PB級的資料量,能夠自動化、智慧化的實現機器學習全流程——支援引數自動化的演算法,降低了人工參與的特徵工程和模型訓練過程,提供自動或半自動的特徵工程、模型選擇調參工具,降低了對資料科學家的依賴。

先知平臺具有四個定位:

  1. 人工智慧應用者開發平臺
  2. 人工智慧的演算法開發平臺
  3. 解決人工智慧行業人才門檻高的問題
  4. 為不同行業量身打造定製化的人工智慧解決方案

基於四種機器學習方式,先知平臺提供有如下十項主要功能:

  1. 資料免清洗
  2. 模型自學習
  3. 一鍵上線
  4. 彈性計算
  5. 實時資料流
  6. 智慧資料整合
  7. 特徵自動組合
  8. 面向AI的計算框架
  9. 模型解讀技術
  10. 個性化需求滿足

圖片描述

戴文淵認為,大部分專家80%或更多的精力都花費在資料清洗上,而第四正規化獨創的“免清洗演算法”功能,對於無效資料的容忍度極高,為AI “減負”。楊強介紹,免清洗的實質,是基於機器學習實現自動清洗,當然這需要和具體的業務相結合,因為不同業務對資料的需求不一樣。其他自動化的流程原理也是類似,同時通過強化學習來保證精度不斷提升。

戴文淵介紹,Spark機器學習建模時間會隨著資料量呈平方增長,傳統分散式計算解決的是分工(大任務切分成很多小任務由叢集機器分別完成)的問題,但作為一個整體的機器學習任務,還需要解決協作的問題——不同子任務的分別學習的結果之間還需要進行交流,而先知平臺的GDBT在解決分工問題的同時,還解決了協作的問題,所以在建模方面的實際的測試結果比Spark更好,尤其是在資料量級越大的情況:

  • 在5萬條較小資料的測試環境下,先知與Spark相比速度提升28%;
  • 在625萬條資料的測試環境下,先知比Spark速度提升86.6倍;
  • 在3125萬條大資料的測試環境下,先知可以實現比Spark速度提升416倍。

CCAI 2016中國人工智慧大會將於8月26-27日在京舉行,AAAI主席,多位院士,MIT、微軟、大疆、百度、滴滴專家領銜全球技術領袖和產業先鋒打造國內人工智慧前沿平臺,6+重磅大主題報告,4大專題論壇,1000+高質量參會嘉賓,探討人機互動、機器學習、模式識別及產業實戰。門票限時六折優惠倒數計時第二天

圖片描述

相關文章