一場3個小時的直播結束後,由阿里安達實驗室(達摩院和阿里安全聯合實驗室)和華中科技大學打造的頂級AI,在3分鐘內精準檢測最佳商品展示片段,自動進行影片剪輯併發布。不久前,在被譽為計算機視覺領域“奧斯卡”、AI領域規模最大的會議CVPR 2020上,這項行為檢測AI技術超越百度、商湯、中興等公司的同類技術,獲得了雙料冠軍,並比去年微軟、三星的參賽成績高出約17個百分點。
在人工智慧頂會拿下雙料冠軍
當前隨著娛樂影片、直播平臺的日漸成熟,直播影片數量也出現了井噴的趨勢,自動化處理影片的需求日益增長。作為自動化處理影片的核心技術之一,行為檢測AI也越來越受到學術界和企業界的共同關注。
阿里安達實驗室高階演算法工程師張士偉介紹,在CVPR 2020關於行為檢測AI的兩項賽道任務中,阿里和華科大聯手提出的解決方案不僅獲得了雙料冠軍,並以平均均值精度(mAP)42.788%的效能一舉打破眾多頂尖科技公司、科研院校去年無法突破“40%”的瓶頸,在AI視覺領域帶來新的可能。
CVPR兩個賽道的資料集分別有2萬個影片和5萬個影片,而且後者採用的是更貼近真實生活的影片資料。這次兩個賽道任務目標是,給定一段無剪下的影片,參賽AI必須檢測出目標行為發生的時間區間並正確預測該行為對應的類別。以一段跳水比賽影片為例,影片中有若干參賽選手的跳水動作,每個跳水動作約4秒,AI須準確定位某位或者多位參賽選手的跳水動作。
張士偉認為,CVPR的比賽任務還面臨四大挑戰:第一,目標行為時常分佈廣,從0.5秒到400秒不等,以賽道中一個200秒的測試影片為例,1秒採集15幀影像,AI必須在3000幀影像中精確定位;第二,影片背景複雜,通常具有很多不規則的非目標行為嵌入在影片中,比如一段集會場景的影片中有許多參會者,AI必須從複雜的背景中精準定位演講者;第三,類間差大,行為的視覺效果會因人而異,比如專業舞者和業餘舞者在跳同一段舞蹈,他們的動作必然有差異,AI要能識別這是同一段舞蹈。“此外,AI檢測人體動作還面臨人體之間的互相遮擋、影片解析度不夠、光照、視角等變化多樣的其他干擾。”張士偉說。
雖然面臨上述難題,兩個賽道的資料屬性也不盡相同,阿里安達實驗室和華中科技大學還是創造性地提出了兩項AI解決方案,出色地實現了比賽任務目標。
圖片說明:阿里安達實驗室和華科大獲獎證書
技術能力得益於現實場景磨鍊
技術的進步往往得益於複雜現實場景的磨鍊和沉澱。行為檢測AI經過長時間打磨,早在阿里安達實驗室的多媒體AI和安全稽核等系統中佈局,成為安全AI的核心元件之一。阿里安達實驗室負責人薛暉介紹,優酷、淘寶直播影片等早已受益於這項頂尖技術。
行為檢測AI不僅可以準確定位、分析影片中的違規行為,甚至還能預測一些行為的趨勢。同時,它還可以自動檢測淘寶直播中某個商品的最佳動作展示片段,自動剪輯出精華影片用於櫥窗展示。
“把行為檢測AI應用在實際業務場景,並在業務的打磨和考驗中不斷成長,,這也是阿里安達實驗室打造的這項AI技術能在CVPR 2020上取得雙料冠軍的原因。”薛暉說。
圖片說明:左為時長3小時的直播影片,右為行為檢測AI識別出的某單件服裝展示影片
打造數字基建“安全樣板間”
今年3月,阿里釋出數字基建新一代安全架構。從實戰出發進行安全基建,讓安全能力和業務數字化建設實現同步,是新一代安全架構的核心理念。
安全技術以往大多隻應用於安全風控領域。阿里安全在20多年間的發展歷程中,始終堅持立足於不斷創新的業務場景打造安全技術。在保障業務安全的前提下,也在為一些商業難題提供新的解決方案,為業界打造安全基建的樣板。
張士偉介紹,行為檢測AI在體育、直播、影視傳媒和安防領域有廣闊的應用前景,比如精彩動作檢測、智慧集錦生成、介紹商品行為,以及通用動作檢測識別、多模態搜尋、異常動作檢測等。在護航數字基建的同時,也為多個領域的創新和提效帶來更多智慧化助力。