作為百度 AI 技術的集大成者,最新升級的百度大腦 3.0 有何亮點?

高靜宜發表於2018-07-04

7 月 4 日,一年一度的百度 AI 開發者大會在京如期舉行。

大會現場,百度不僅分享了公司在 AI 技術、產品與平臺等方面的研究成果與最新進展,還宣佈了百度大腦的重磅升級,3.0 版本正式問世。

為此,百度高階副總裁、AI 技術平臺體系(AIG)總負責人王海峰親自站臺對其展開了詳細的解讀。
作為百度 AI 技術的集大成者,最新升級的百度大腦 3.0 有何亮點?「百度大腦 3.0 可以說是百度 AI 技術的集大成者。」王海峰如是說。

眾所周知,百度在 AI 技術上有著長期的投入和積累。在回顧百度 AI 技術的發展歷程時,王海峰提到了三個重要的時間節點。

2000 年,也就是十八年前,百度作為一家搜尋公司誕生。由於搜尋引擎背後除了網際網路技術的支援,也離不開自然語言處理、資訊檢索等 AI 技術,因此在王海峰看來,百度從誕生的那一天起就開始了 AI 技術的研發與應用。

而在八年前的 2010 年,百度開始全面佈局 AI 技術,先後開展了自然語言處理、計算機視覺、機器學習、資料探勘、知識圖譜等 AI 技術的研發。

兩年後,百度開始著手深度學習技術的研發與應用,並在當年的百度影象語音等應用中正式上線。

鑑於深度學習技術在實際應用中的驚豔表現,百度在 2013 年成立了世界上第一個深度學習研究院,同時將深度學習技術率先應用於大規模線上搜尋引擎之中,並於 2015 年上線了基於神經網路的機器翻譯系統。

經過了十六年的積累,百度的 AI 技術日漸成熟。在此基礎上,百度於 2016 年正式釋出百度大腦 1.0,不僅供百度內部使用,還向開發者開放。

當時 1.0 版本的百度大腦在完成了基礎能力的搭建之後,僅僅實現了語音、影象、使用者畫像和 PaddlePaddle 深度學習框架等核心技術的初步開放。
作為百度 AI 技術的集大成者,最新升級的百度大腦 3.0 有何亮點?百度大腦基礎架構

而伴隨著時間的推移,百度大腦也逐漸塑造成型。

去年開發者大會發布的百度大腦 2.0 已經形成了完整的 AI 技術體系,向開發者開放的能力也超過了 60 項能力,既有各方面 AI 核心技術,也有場景化能力及解決方案。

而此次釋出的百度大腦 3.0 在開放的能力數量方面又有了新的提升——已經超過 110 項。

王海峰表示,今早他看到的最新數字是 117 項。

而在能力數量增加的同時,百度的 AI 技術能力也在不斷增強。王海峰介紹,此次百度大腦 3.0 的最核心技術,用一句話概括,就是多模態深度語義理解。

具體而言,就是對文字、聲音、圖片、視訊等多模態的資料和資訊進行深層次多維度的語義理解,包括資料語義、知識語義、視覺語義、語音語義一體化和自然語言語義等多方面的語義理解技術。

換句話說,就是不僅要讓機器可以聽清、看清,還要能夠深入理解其背後的含義,從而更好地支撐各種應用。
作為百度 AI 技術的集大成者,最新升級的百度大腦 3.0 有何亮點?百度大腦 3.0 核心技術——多模態深度語義理解

在 AI 領域,資料的重要性自不用提。無論是物理世界、人類社會還是網路空間,都充斥著海量的多元、異構、多模態的三元空間大資料。

那麼如何最大程度發揮這些資料的價值呢?

這就需要對資料進行加工、處理、挖掘和分析,實現資料的語義化進而加以利用。

為此,百度通過統一表徵、關聯計算,構建包含千億節點、萬億關係的龐大資料語義網路,並在此基礎上總結規律、提煉知識,進而助力經濟和社會的發展。

王海峰舉了一個新能源充電樁智慧運維的例子。

結合百度的大資料、深度學習等技術,對充電樁裝置資料進行採集、傳輸、儲存、分析,就可以實現裝置監測、故障診斷、預測性維保等,在提升效率的同時也大幅節約了成本。
作為百度 AI 技術的集大成者,最新升級的百度大腦 3.0 有何亮點?當然,除了資料,理解大千世界中的多元知識也是打磨 AI 技術中的重要一環。而要構建出詳盡而完備的知識圖譜卻並非易事,需要巧妙理清繁雜的垂直領域知識、梳理其中的邏輯。

而在這件事上,百度所投入的資源與人力顯而易見,目前已經構建了包含數億實體、數千億級事實的龐大知識圖譜。

除了基礎的由實體、屬性、關係構成的實體圖譜,百度還針對不同的應用場景和知識形態,構建了關注點圖譜、事件圖譜、多媒體圖譜、行業知識圖譜等多種圖譜。
   
「知識圖譜是人類進步的重要階梯。」王海峰解釋道,百度所掌握的這些知識是構建百度大腦的重要基礎。

以世界盃相關的知識圖譜為例,實體圖譜可以看到熱門球隊、熱門球星、賽場、賽程和主題歌等資訊;關注點圖譜可以體現使用者對於 C 羅和梅西的興趣所向;多媒體圖譜則包括圖片、音樂和視訊;行業圖譜和事件圖譜覆蓋了足球規則的各種知識和近 9 屆世界盃的大事件。

這些不同型別的圖譜通過關係關聯起來,也會延展出新的圖譜,構成龐大的多元語義知識網路。

大會現場,百度還播放了一段世界盃球賽視訊,展示了百度大腦的視覺語義理解能力。視訊中,系統不僅可以全面識別視訊中的球員、裁判、球、以及球門、球場線等人、物和場景,還可以捕捉射門、進球、角球、任意球、換人等事件。

基於這些結構化語義資訊,既可以完成機器人自動解說,也可以進行精彩片段集錦以及各種資料統計分析等。
作為百度 AI 技術的集大成者,最新升級的百度大腦 3.0 有何亮點?百度大腦視覺語義能力在足球賽事中的展現

而在日常生活場景中,百度大腦的視覺語義理解能力也能夠發揮作用。

在無人超市購物場景下,系統可以通過攝像頭對超市中的人、貨、場進行全方位識別,然後將影象資訊進行時序化和結構化,讓購物機器人能夠掌握環境資訊進而完成自動避障並引導顧客行進,讓系統得以實時掌握顧客取拿的商品。

對於時下大熱的無人零售領域,這項技術無疑是一種必不可少的存在。
作為百度 AI 技術的集大成者,最新升級的百度大腦 3.0 有何亮點?百度大腦視覺語義能力在無人超市場景中的展現

在為「眼睛」賦予了理解能力後,百度大腦自然不會放過人類最重要的交流媒介——語音和語言。

在語音技術方面,百度大腦在高噪聲環境 Hand-free 語音識別準確率上提升了 10 個百分點。與此同時,百度大腦採用語音語義一體化技術使得遠場語音識別準確率也提升了 10 個百分點。

而為了讓整個對話過程更加自然,百度大腦在語音的合成上採用拼接了 WaveNet+的情感語音合成技術,如此一來,既可以使得互動的流暢度大幅提升,又避免了計算量過大的問題。

目前,新版百度地圖中的小度語音助手已經可以理解複雜的語義請求,面對「我要從三里屯的團結湖地鐵站出發、路過望京家樂福、然後再去南鑼鼓巷最後到我家,要紅綠燈少的、不堵車的最快路徑」這樣的請求也絲毫不懼。

王海峰介紹,在對話理解上,百度研發了最新的深層注意力匹配模型並將其引入到系統之中,比已知的最好結果提升了 4.1%。從優化前後的結果來看,引入這種模型的對話互動的確更加自然。
作為百度 AI 技術的集大成者,最新升級的百度大腦 3.0 有何亮點?而在閱讀理解上,百度大腦已經閱讀了千億量級的文章,相當於 6 萬個中國國家圖書館的藏書,積累了億級實體、千億事實的知識。

以葡萄牙和西班牙的比賽為例,通過閱讀網上大量相關新聞,百度大腦不僅瞭解比賽的事件與主題,還能與使用者進行問答及推薦互動。可以發現,通過持續獲取和積累知識,百度大腦的智慧水平得到了顯著提升。
作為百度 AI 技術的集大成者,最新升級的百度大腦 3.0 有何亮點?而在百度大腦各項技術與能力升級的背後,是百度在底層技術上的不斷打磨與迭代,也離不開深度學習框架 PaddlePaddle 的支援。
作為百度 AI 技術的集大成者,最新升級的百度大腦 3.0 有何亮點?2012 年,百度開始深度學習技術的研發,並從 2013 年自主研發深度學習平臺,並讓其服務於百度的多項核心業務。

在 2016 年 9 月,百度對外發布了自己的深度學習框架 PaddlePaddle。一年後,百度釋出新一代深度學習框架 PaddlePaddle Fluid。

而今,百度的深度學習框架再次實現升級。王海峰在大會現場釋出了最新版本——PaddlePaddle 3.0。

據王海峰介紹,PaddlePaddle3.0 核心框架還包括三個重要平臺,分別為快速應用平臺 EasyDL、網路結構自動化設計 AutoDL 以及線上實訓平臺 AI Studio。
作為百度 AI 技術的集大成者,最新升級的百度大腦 3.0 有何亮點?其中,EasyDL 平臺可以讓零基礎開發者迅速定製自己的應用,大幅降低了人們進入 AI 領域的門檻。

作為百度 AI 技術的集大成者,最新升級的百度大腦 3.0 有何亮點?EasyDL 在製造業鍵盤組裝合格性檢測上的能力

而對於那些有基礎的開發者來說,設計深度學習網路結構是一項相對耗時耗力的工作,AutoDL 的存在就是致力於幫助開發者節省設計深度學習網路結構的時間。

作為百度 AI 技術的集大成者,最新升級的百度大腦 3.0 有何亮點?人工設計的網路結構與 AutoDL 網路設計效果比對

「我們不止是把核心演算法做了升級,同時在伺服器端以及移動端都有各自相應的服務可以支援各種場景的應用。」王海峰補充道。

在談到深度學習框架與 AI 生態的關係時,王海峰認為深度學習框架可以類比為 AI 的作業系統,向下可以與 AI 晶片結合。

要知道,AI 晶片在對 AI 模型的計算進行專門優化後,效能會有很大的提升。從這個角度出發,王海峰表示深度學習框架相當於 AI 晶片的指令集。

值得一提的是,此次大會百度還發布了一款雲端全功能 AI 晶片「崑崙」,主打高效能、高價效比、易用三大特點。百度表示,其運算能力比最新基於 FPGA 的 AI 加速器,效能提升了近 30 倍。

當然,沒有經過真實場景使用的技術都是紙上談兵,實踐與應用才是培育技術最佳土壤。王海峰透露,目前百度大腦每天的呼叫次數已經超過了 4090 億次,呼叫的人既有 AI 工程師,也有零 AI 基礎的初入門者,還有來自各行各業希望用 AI 創新業務、為業務轉型升級的企業。

不難想象,這些龐大的開發者群將成為百度大腦迭代更新路上的最大助力。

「估計明年我們再站在這裡的時候就需要更大的螢幕來展示百度大腦開放給開發者的能力了。」王海峰總結說,「我們更希望我們的能力可以幫助開發者獲得屬於自己的成功,這也是我們最大的心願。」

作為百度 AI 技術的集大成者,最新升級的百度大腦 3.0 有何亮點?

相關文章