深度學習如何大規模產業化?百度CTO王海峰最新演講深度解讀 | CNCC 2019

AIBigbull2050發表於2019-10-21

 10月17日-19日,2019年中國計算機大會(CNCC2019)在蘇州舉辦,本屆大會以“智慧+引領社會發展”為主題,1000家機構的代表、8000餘人參展參會。百度技術長王海峰在會上發表題為《深度學習平臺支撐產業智慧化》的演講,分享了百度關於深度學習技術推動人工智慧發展及產業化應用的思考,並深度解讀百度飛槳深度學習平臺的優勢,以及與百度智慧雲結合助力產業智慧化的成果。

深度學習如何大規模產業化?百度CTO王海峰最新演講深度解讀 | CNCC 2019

以下為演講實錄:

各位專家,各位來賓大家上午好!非常榮幸有機會參加世界計算機大會,非常感謝中國計算機學會及大會的邀請。今天我跟大家分享的題目是《深度學習平臺支撐產業智慧化》。

我們都知道,從18世紀60年代開始,人類已經經歷了三次工業革命。第一次工業革命為我們帶來了機械技術,第二次帶來了電氣技術,第三次帶來了資訊科技。我們回顧這三次工業革命的歷史會發現,驅動每一次工業革命的核心技術都有非常強的通用性。雖然它可能是從某一個行業開始,比如機械技術最開始從紡織等行業開始,但最後都會應用於生產生活的方方面面,有非常強的通用性。除了通用性以外,這些技術都會推動人類進入一個新的工業大生產階段,而支撐工業大生產的技術有幾個特點:標準化、自動化、模組化。而我們現在正處於第四次工業革命的開端,人工智慧則是新一輪科技革命和產業變革的一個核心驅動力量。人工智慧會推動我們人類社會逐漸進入智慧時代。

回顧人工智慧技術的發展,人工智慧技術的發展階段有很多分類維度,我理解大概可以歸結為:最早期更多都是在用人工的規則,我26年前進入這一行的時候,其實也是在用人工規則來開發機器翻譯系統;後來逐漸開始機器學習,尤其是統計機器學習,在很長的一段時間裡佔主流地位,也產生了很大的影響,帶來了很多應用產業的價值;深度學習是機器學習的一個子方向,現在,深度學習逐漸成為新一代人工智慧最核心的技術。

深度學習如何大規模產業化?百度CTO王海峰最新演講深度解讀 | CNCC 2019

舉幾個例子,文字識別OCR技術早期是用規則+機器學習的方法來做,那時候,一個OCR技術系統可能會分為幾部分,從區域檢測、行分割、字分割、單字識別、語言模型解碼、後處理等一步步做下來。加入深度學習技術後,我們開始使用大資料進行訓練,而且階段目標也很明確,我們找到一些深度學習的特徵,這個時候一個OCR系統就簡化到只需要檢測、識別兩個過程,典型的基於深度學習的OCR系統大概是這樣。隨著深度學習技術進一步發展,我們開始在OCR裡面進行多工的聯合訓練、端到端學習、特徵複用/互補,這個時候,甚至這兩個階段也不用區分了,而是一體化地就把一個文字識別的任務給做了。

我們再看機器翻譯。26年以前我進入人工智慧領域就是在做機器翻譯,當時我們用數以萬計的規則寫出一個翻譯系統,其中包括很多語言專家的工作。20多年以前,我們做的這個系統曾得到全國比賽的第一,但是這個系統想繼續發展,進入一個大規模產業化的階段,仍然面臨著很多問題。比如說人工規則費時費力,而且隨著規則的增加,衝突也越來越嚴重,掛一漏萬,總是很難把所有的語言現象都覆蓋到。後來,統計機器翻譯在機器翻譯領域佔據最主流技術的地位,像百度翻譯八年以前上線的第一個版本的系統,其實就是統計機器翻譯。統計機器翻譯的過程當中,仍然要一步一步來做,比如說先做統計的詞對齊,然後做短語的提取,再做結構的對齊等等,其中也涉及到人工特徵的提取、定向的最佳化,仍然很複雜。大概四年多以前,百度上線了世界上第一個大規模的、基於神經網路的翻譯產品,這時候我們可以進行端到端的學習了。當然了,這樣一個神經網路,或者說是深度學習的系統,也有它的不足之處,現在真正線上上跑的、每天服務數以億計人的翻譯系統,其實是以神經網路的機器翻譯方法為主體,同時融合了一些規則、統計的技術。

剛才說起,隨著深度學習的發展,這些技術越來越標準化、自動化。大家可以看到深度學習有一個很重要的特點,就是通用性。我們之前做機器學習的時候,有非常多的模型大家都耳熟能詳,比如說SVM、CRF等等。深度學習出現以後,人們發現,幾乎我們看到的各種問題它都能很不錯的解決,甚至能得到目前最佳的解決效果,這和以前的模型各有擅長不一樣,它具有很強的通用性。

深度學習所處的位置,一方面它會向下對接晶片,像我們開發的深度學習框架,也會跟各個晶片廠商聯合進行最佳化,前天我們還跟華為晶片一起做了一個聯合最佳化的釋出;向上它會承接各種應用,不管是各種模型,還是真正的產品。所以我們認為深度學習框架會是智慧時代的一個作業系統。

我們真正把深度學習大規模產業化的時候,也會面臨一些要解決的問題,比如說,開發這樣一個深度學習的模型或者是系統,實現起來很複雜,開發效率很低,也很不容易;而在訓練的時候,我們在真正工業大生產中用的這些模型,比如說百度的產品,都是非常龐大的模型,進行超大的模型訓練很困難;到了部署階段,還要考慮推理速度是不是夠快,以及部署成本是不是可控合理。

針對這幾個方面,我們開發了百度的深度學習平臺“飛槳”,英文我們叫PaddlePaddle。我們認為它已經符合標準化、自動化、模組化的工業大生產特徵。

深度學習如何大規模產業化?百度CTO王海峰最新演講深度解讀 | CNCC 2019

飛槳底層的核心框架包括開發、訓練、預測。開發既可以支援動態圖,也可以支援靜態圖;訓練可以支援大規模的分散式訓練,也可以支援這種工業級的資料處理;同時可以有不同版本部署在伺服器上、在端上,以及做非常高效的壓縮、安全加密等等。核心框架之上有很多基礎模型庫,比如說自然語言處理的基礎模型庫、計算機視覺的基礎模型庫等等。同時也會提供一些開發的套件,再往上會有各種工具元件,比如說網路的自動訓練、遷移學習、強化學習、多工學習等等。此外,為了真正支撐各行各業的應用,我們提供很多使用者不需要理解底層這些技術、可以直接呼叫的服務平臺。比如EasyDL,就是可以定製化訓練和服務的,基本上可以不用瞭解深度學習背後的原理,零門檻就可以用它來開發自己的應用;AI Studio則是一個實訓平臺,很多大學也在用這樣的平臺上課、學習;當然,還包括端計算模型生成平臺。

飛槳是一個非常龐大的平臺,我們著重在四方面發力、且具有領先性的技術。

首先從開發的角度,我們提供一個開發便捷的深度學習框架;而從訓練的角度,可以支援超大規模的訓練;從部署的角度,可以進行多端、多平臺的高效能推理引擎的部署;同時提供很多產業級的模型庫。

深度學習如何大規模產業化?百度CTO王海峰最新演講深度解讀 | CNCC 2019

從開發的角度,飛槳提供一個開發便捷的深度學習框架。一方面,大家知道這些軟體系統都是很多程式設計師在寫,程式設計師有自己寫程式的習慣,我們這種組網式的程式設計正規化與程式設計師的開發習慣非常一致,程式設計師開發起來會很有效率,而且也很容易上手;另外一個方面是設計網路結構,深度學習發展很多年,多數深度學習的系統網路都是人類專家來設計的,但是,設計網路結構是很專、很不容易的一件事情。所以,我們開發網路結構的自動設計。現在機器自動設計的網路,在很多情況下已經比人類專家設計的網路得到的效果還好。

同時,大規模訓練面臨的挑戰。飛槳支援超大規模的特徵、訓練資料、模型引數、流式學習等等。我們開發的這套系統現在已經可以支援萬億級引數模型,不止是能支援這樣的訓練,同時可以支援實時的更新。

說到多端多平臺,飛槳能很好的支撐從伺服器到端、不同的作業系統之間,甚至不同框架之間的無縫銜接。這裡是一些具體的資料,大家可以看到,我們通用架構的推理,它的速度是非常快的。同時,剛才我提到的跟華為的合作,我們針對華為的NPU做了定向的最佳化,使它的推理速度得到進一步的提升。

另外一方面,所有這些基礎框架,與真正的開發應用之間還有一步,我們定向地為不同的典型應用提供很多官方的模型庫,比如說語言理解的、增強學習的、視覺的等等。飛槳的這些模型都在大規模的應用中得到過驗證,同時我們也在一些國際的比賽中測試了這些模型,奪得了很多個第一。

剛才講的是基本的框架模型等等,另一方面,我們還有完備的工具元件,以及面向任務的開發套件,以及產業級的服務平臺。

舉幾個例子,比如說語言理解,大家知道現在語言理解,我們也都基於深度學習框架來做,像百度的ERNIE。一方面,我們現在用的深度學習技術是從海量的資料裡進行學習,但是它沒有知識作為前提。百度開發了一個非常龐大的,有3000多億個事實的知識圖譜,我們用知識來增強基於深度學習的語言理解框架,就產生了ERNIE。另一方面,我們又加入了持續學習的技術,從而讓ERNIE有一個非常好的表現。下面淺藍色的線是現在SOTA最好的結果,我們用ERNIE+百科知識——我們知識圖譜也有很多來源——加進去以後,大家可以看到有很明顯的提升。我們更高興地看到,持續加入不同的知識,比如加入對話知識、篇章結構知識等等,這個系統還可以進一步提升它的效能。

這是前面講的一系列套件之一,可以零門檻進入的定製化訓練和服務平臺。我們這些平臺,希望能降低門檻,幫助各行各業來加速整個技術創新。現在大概是什麼狀態呢?現在我們已經服務了150多萬的開發者,其中包括超過6.5萬個企業。在這個平臺上,他們自己訓練了已經有16.9萬個模型。

飛槳深度學習開源開放平臺跟百度的智慧雲也有很好的結合,依託雲服務更多的客戶,讓AI可以賦能各行各業。這裡有一些例子,比如說在農業,我們幫助水培蔬菜的智慧種植;在林業,幫助病蟲害的監測識別;以及公共場所的控煙、商品銷售的預測、人力資源系統的自動匹配、製造業零件的分揀,以及地震波、藏油預測,以及更廣泛地覆蓋通訊行業、地產、汽車等等領域,各行各業都基於這個平臺都得到了智慧化的升級。

深度學習如何大規模產業化?百度CTO王海峰最新演講深度解讀 | CNCC 2019

比如水培蔬菜智慧種植,我們透過深度學習平臺支援它進行長勢分析、水培方案的精調、環境的控制,使產量得以提高,同時成本得以降低。智慧蟲情監測也是一樣,系統的識別準確率已經相當於人類專家的水平,而且監控的週期也從一週縮短到一小時。

深度學習如何大規模產業化?百度CTO王海峰最新演講深度解讀 | CNCC 2019

精密零件智慧分揀的案例中,我們真正用這個深度學習系統的時候,還是有不少事情要做,比如說如何選擇分揀的模型,中間也會涉及一些資料的標註,尤其是一些錯誤case的積累等等,然後在飛槳平臺上進行訓練升級。

這是一個工業安全生產監控的例子,昨天在另一個會上,有一個來賓問我,他們特別想在一些場景下,監控一些不當的環節,比如說生產環境裡打 手機、抽菸、躍過護欄等等。這些都可以透過飛槳的平臺自動實現。

深度學習如何大規模產業化?百度CTO王海峰最新演講深度解讀 | CNCC 2019

在其他的行業中,比如國家重大工程用地的檢測,智慧司法,以及AI眼底篩查都在應用飛槳,還有很多有溫度的案例,比如AI尋人,一個孩子4歲的時候離家走失,27年以後,透過人臉比對技術,又幫助這個家庭把孩子找回來了,實現了家庭的團聚。截止到今年6月,百度AI尋人已經幫助6700個家庭團圓。除此之外,還有AI助盲行動、AI助老兵圓夢等等這些案例。

深度學習如何大規模產業化?百度CTO王海峰最新演講深度解讀 | CNCC 2019

回到深度學習,剛才我說,各行各業都會從其中受益,實現自己的智慧化升級。這是一個第三方的報告,我們可以看到,深度學習給不同的行業都會帶來提升,平均大概是62%的水平。

這就是我今天要分享的。百度的飛槳深度學習平臺非常願意跟大家一起,幫助大家實現自己行業的智慧化升級,推動人工智慧的發展,謝謝大家!





來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2660724/,如需轉載,請註明出處,否則將追究法律責任。

相關文章