7月3日,百度 AI開發者大會上,百度大腦5.0重磅釋出,在演算法層面實現“質的飛躍”,取得多項技術突破,視覺技術就是其中之一。百度大腦論壇上,百度視覺技術部、擴增實境技術部總監吳中勤正式釋出百度視覺語義化平臺2.0,在互動升級和軟硬體結合兩大方面實現突破,告別從看清世界到看懂世界的1.0時代,迎來“互動”時代。
5G時代對AI視覺技術有更高要求,比如,實時需求帶來巨大計算量,需要更高的計算效率;更多形態和多模態互動才能讓呈現和反饋更加自然;更多的物聯網裝置需要通過邊緣計算的部署實現高效資訊處理。百度視覺語義化平臺2.0可以進一步滿足這些需求。
視覺語義化平臺推出了兩項強大的互動技術,包括一體化人機互動技術、以及大場景物理世界互動技術。在一體化人機互動系統中,從人臉,肢體,手勢和環境4個方面給使用者帶來豐富的互動體驗,將視覺定位與擴增實境技術突破性結合,實現大範圍虛擬資訊與物理世界的精準疊加,從而建立起AI時代全新的互動系統。
在一體化人機互動系統中,依託於高精度的人臉關鍵點和人臉檢測的基礎演算法,可以實現精細五官和皮膚級的實時跟蹤,達到3D貼紙與道具、3D動畫表情、以及五官互動觸發等豐富的互動能力。在肢體方面,支援多達59點的肢體骨骼點實時檢測和跟蹤,全機型覆蓋。在環境感知和理解方面,可以實現物理世界1:1實景實時分割,包括人像分割、天空分割,可以實現非常豐富的環境互動和特效。該系統適用於實現AR特效的直播、小視訊、特效小程式等場景,已應用於百度多款視訊App。
除了娛樂互動方面,一體化人機互動系統可以廣泛應用於智慧生活方面。比如在智慧車機場景,該系統可以實現疲勞駕駛提醒,通過頭部姿態、手勢和表情等進行互動操控。目前,百度與奇瑞合作推出的“奇瑞星途”汽車,即搭載了一體化人機互動系統。
除了聚焦人與機器的互動技術,基於VPAS(視覺定位與增強服務)的大場景物理世界互動系統可以帶來全新的互動體驗。百度首次通過視覺定位與AR技術的突破性結合,將虛擬資訊與真實地理位置準確重合,標誌著國內AR技術發展與應用領域取得突破性進展——在從簡單的空間物體放置體驗,邁向基於物理空間精準感知的高沉浸混合現實體驗。
在軟硬結合的技術方面,吳中勤結合PaddleSlim、FaceID多模態人臉識別元件和AI相機三方面的技術和應用,展示了這方面全新升級。Paddleslim是飛槳平臺中強大的模型壓縮工具,支援的壓縮方式種類和效果業界領先。以人臉技術為例,在精度幾乎不衰減的情況下,通過PaddleSlim可將模型速度提升接近9倍,模型壓縮的開發效率提升了5倍,讓端上應用的體驗非常流暢。
FaceID是百度與合作伙伴一起聯合研發的百度大腦適配的攝像頭產品,均支援RGB單目、3D結構光、近紅外3種模態。它的特點是,全流程,多模態,並應用了領先的模型量化和壓縮技術,搭載了業界領先的人臉識別演算法,能實現軟硬一體,即插即用的使用方式,可以幫助開發者極大地節約研發成本。目前這些產品已經在公共出行、教育、零售、金融、政務等多個行業落地,裝置覆蓋量超過1200萬臺。
同時,百度視覺技術團隊還研發了軟硬一體的AI相機系列產品,將領先的AI視覺技術與智慧晶片技術聯合優化。實現了端上AI視覺計算,推出多種形態的AI相機產品,可以實現人臉檢測、跟蹤、人體分析、車輛分析等功能,產品穩定性、功耗、綜合效果行業領先。基於這些軟硬一體的AI相機產品,百度還開發了整套智慧視訊監控方案,可以實現顧客會員識別、店內熱力圖、人流動線分析、客流量統計等功能。如今,已經在3C賣場、手機品牌店、通訊營業廳、便利店等多個場景中落地應用。
此次視覺技術的重磅升級,是百度大腦技術能力的長期積累。此前,百度視覺技術已在國際多項賽事中屢屢奪冠,展現出百度大腦強悍的AI技術實力。在6月份剛剛結束的CVPR頂級視覺學術會議上,百度視覺技術摘取了包括物體檢測、影象增強、智慧城市、視訊理解等6項世界第一,ICME人臉關鍵點競賽、DAWN深度學習benchmark速度成本等也取得世界第一的好成績。
在即將到來的5G時代,越來越多物理裝置將連線到高可靠、低延時的網路空間,這將徹底改變人們與環境及裝置的互動方式。本次全新發布的視覺語義化平臺2.0,正在推進視覺技術由“看清看懂”向“互動”進行升級。百度將通過百度大腦的生態體系,把這些能力開放給開發者和各位合作伙伴。希望通過助力開發者,實現開放共贏,共建更強大的AI生態,用科技讓複雜的世界更簡單。