第四正規化先知：建模比Spark快416倍，支援萬億級別變數數

周建丁發表於2016-07-20

7月20日，第四正規化公司釋出了基於深度學習、強化學習和遷移學習的人工智慧平臺——“第四正規化·先知（Prophet）”。第四正規化CEO戴文淵表示，在3000多萬條大資料的測試環境下，先知平臺建模速度比Spark快416倍，同時採用DSN（深度稀疏網路）使得先知能夠支援萬億級別變數數，所以具有更強的表達能力，能夠更好地支援多維資料。

圖片描述

深度學習是當前最為熱門的人工智慧演算法，然而深度學習在實際使用中還遇到很多障礙，例如深度學習首先是（標記）資料飢渴型和計算飢渴型演算法，同時高精度的學習效果還需要很高階的演算法人才。此外，深度學習也不是人工智慧的全部。第四正規化首席科學家楊強教授（沒錯，就是美國人工智慧協會（AAAI）首位華人Fellow）總結了人工智慧發展的兩個主要障礙：

人工智慧行業應用推廣的門檻在於人才的稀缺和投入的巨大，培養一個合格的AI人才需要6-10年時間，加上地區發展的差異導致AI的“准入門檻”居高不下；
沒有各行各業的“大資料”支撐，沒有AI在各行業的應用及發展，AI也只能是實驗室的專案，應用之路漫長。

作為一名資深的人工智慧研究者，楊強希望實現更通用的人工智慧，包括覆蓋沒有大資料的領域。他表示，深度學習的研究目前已經達到一個高峰，而應用的探索才剛剛開始，現在應該是強化學習的時代，強化學習可以通過延遲的反饋不斷地實現模型優化，未來則屬於遷移學習，它既能夠將基於大資料訓練的模型遷移到沒有大資料的領域，同時又可以更好地支援個性化的需求。

楊強加入了他的得意弟子戴文淵的創業大計，希望整合深度學習、強化學習、遷移學習、記憶網路等演算法，將稀缺的AI人才與行業經驗變成產品，將每個行業解決方案中有價值的模組進行產品化，把科研高度與行業實戰經驗封裝到一個平臺級產品中，成為企業的商業套件、企業決策的智慧引擎。

戴文淵既是遷移學習研究者和擁護者，也曾擔任百度廣告變現演算法的核心負責人、百度鳳巢的總架構師。楊強認為，團隊的演算法經驗和工程經驗搭配能夠實現第四正規化“AI for everyone”的目標。

經過1年半的研發，第四正規化推出了商用的先知平臺，支援超過3萬臺機器、能處理PB級的資料量，能夠自動化、智慧化的實現機器學習全流程——支援引數自動化的演算法，降低了人工參與的特徵工程和模型訓練過程，提供自動或半自動的特徵工程、模型選擇調參工具，降低了對資料科學家的依賴。

先知平臺具有四個定位：

人工智慧應用者開發平臺
人工智慧的演算法開發平臺
解決人工智慧行業人才門檻高的問題
為不同行業量身打造定製化的人工智慧解決方案

基於四種機器學習方式，先知平臺提供有如下十項主要功能：

資料免清洗
模型自學習
一鍵上線
彈性計算
實時資料流
智慧資料整合
特徵自動組合
面向AI的計算框架
模型解讀技術
個性化需求滿足

圖片描述

戴文淵認為，大部分專家80%或更多的精力都花費在資料清洗上，而第四正規化獨創的“免清洗演算法”功能，對於無效資料的容忍度極高，為AI “減負”。楊強介紹，免清洗的實質，是基於機器學習實現自動清洗，當然這需要和具體的業務相結合，因為不同業務對資料的需求不一樣。其他自動化的流程原理也是類似，同時通過強化學習來保證精度不斷提升。

戴文淵介紹，Spark機器學習建模時間會隨著資料量呈平方增長，傳統分散式計算解決的是分工（大任務切分成很多小任務由叢集機器分別完成）的問題，但作為一個整體的機器學習任務，還需要解決協作的問題——不同子任務的分別學習的結果之間還需要進行交流，而先知平臺的GDBT在解決分工問題的同時，還解決了協作的問題，所以在建模方面的實際的測試結果比Spark更好，尤其是在資料量級越大的情況：

在5萬條較小資料的測試環境下，先知與Spark相比速度提升28%；
在625萬條資料的測試環境下，先知比Spark速度提升86.6倍；
在3125萬條大資料的測試環境下，先知可以實現比Spark速度提升416倍。

CCAI 2016中國人工智慧大會將於8月26-27日在京舉行，AAAI主席，多位院士，MIT、微軟、大疆、百度、滴滴專家領銜全球技術領袖和產業先鋒打造國內人工智慧前沿平臺，6+重磅大主題報告，4大專題論壇，1000+高質量參會嘉賓，探討人機互動、機器學習、模式識別及產業實戰。門票限時六折優惠倒數計時第二天。

工業資料分析之數倉建模 | 正規化建模和維度建模，你pick誰？
2022-03-03
Spark 外部變數和BroadCast變數的區別
2020-10-05
Spark變數AST
【DataMagic】如何在萬億級別規模的資料量上使用Spark
2018-04-18
Spark
資料庫設計正規化2——BC正規化和第四正規化
2016-08-31
資料庫
OPPO萬億級資料庫MongoDB叢集效能數十倍提升優化實踐
2021-02-04
資料庫MongoDB優化
perl正規表示式中的特殊變數
2011-04-26
變數
正規表示式數字數字型別驗證程式碼
2017-02-09
型別
正規表示式匹配各種型別數字
2017-03-19
型別
C++ 變數初始化規則
2014-01-07
C++變數
C#用正規表示式高效替換變數
2018-08-07
C#變數
利用js正規表示式校驗正數、負數、和小數
2022-03-19
JS
Case when 支援變數
2007-12-03
變數
Spark開發-廣播變數
2017-10-01
Spark變數
如何讓CSS計數器支援小數的動態變化？
2022-11-24
CSS
shell特定變數和Makefile中自動化變數的對比記憶
2010-11-08
變數
【c語言】將正數變成對應的負數，將負數變成對應的正數
2015-06-30
C語言
【Spark篇】---Spark中廣播變數和累加器
2018-02-06
Spark變數
無法在 nginx 的 “if” 正規表示式中使用變數？
2019-09-10
Nginx變數
物件導向正規化需要數學思維嗎?
2007-11-09
物件
成員變數、全域性變數、例項變數、類變數、靜態變數和區域性變數的區別
2018-03-03
變數
Python小白的數學建模課-04.整數規劃
2021-06-03
Python
Qcon/dbaplus/mongodb社群分享-萬億級資料庫MongoDB叢集效能數十倍提升最佳化實踐
2021-02-03
MongoDB資料庫
JS變數比較陷阱
2018-08-30
JS變數
Spark2 broadcast廣播變數
2016-11-14
SparkAST變數
變數名命名規則
2018-03-23
變數
淺談變數型別之外的變數命名
2018-12-17
變數型別
volatile變數與普通變數的區別
2017-09-30
變數
靜態變數和例項變數區別？
2008-04-07
變數
自動化運維工具之Puppet變數、正規表示式、流程控制、類和模板
2020-12-03
運維變數
mybatis二級快取引數
2020-11-19
MyBatis快取
PHP變數型別
2019-02-16
PHP變數型別
Java 變數型別
2018-11-30
Java變數型別
變數型別-Set
2018-09-27
變數型別
《Qcon分享-萬億級資料庫 MongoDB 叢集效能數十倍提升優化實踐》核心17問詳細解答
2021-02-21
資料庫MongoDB優化
加速媒體業務智慧化升級第四正規化釋出智慧推薦系統先薦
2018-11-08
匹配正負小數正規表示式程式碼
2017-06-27
Spark只比Hadoop快19% ？
2015-03-20
SparkHadoop
Python中負數變成正數常用的方法！
2024-01-15
Python

第四正規化先知：建模比Spark快416倍，支援萬億級別變數數

相關文章