影片內容安全和影片檢索等場景前沿技術SGR分析

阿里安全發表於2021-04-16

       網際網路內容越來越朝著影片化方向發展,短影片處於爆發期,一些不法分子試圖利用影片風口牟利。3月底,深圳警方打掉了一起以短影片APP為載體,大肆從事淫穢傳播、網路賭博以及網路詐騙等犯罪活動。

 

最近,阿里安全圖靈實驗室就釋出了一項關於社會文化的最新技術研究,這是一種新型影片描述生成技術SGR,可用於影片內容安全和影片檢索等場景,助力建設網際網路清朗環境,該研究成果被人工智慧國際頂會CVPR 2021oral)收錄。


阿里前沿技術讓AI做“閱讀理解”

 

SGR可以實現兩類基本功能,一是讓AI對影片內容做“閱讀理解”,生成一段長文字描述影片中心內容,二是可以根據描述性的文字精準匹配影片中的相關片段。

 

相較於此前必須人工定義關鍵詞詞庫後,才能“指揮”AI命中檢索,這項AI技術的目標是僅透過輸入自然語言就能實現檢索,對AI“說句話”,就能找到相應片段。

 

“影片中如果有人拿起滑鼠,點選電腦,然後脫掉衣服,呈現黃賭毒等相關違規資訊,以前的技術路徑上,AI可能還要分析脫掉衣服之前的動作,其實拿滑鼠和點選電腦與後面的違規內容沒什麼關聯,無需提取這些資訊。”該研究第一作者、阿里安全圖靈實驗室實習演算法工程師青崧介紹道。

 

SGR解決了這個問題。給定一個影片,AI可對影片的關鍵候選片段無縫銜接成一個完整的故事,保證了密集型描述的連貫性,且減少了冗餘。

 

該研究共同作者、阿里安全圖靈實驗室高階演算法工程師雍秦介紹,雖然目前這個技術還無法做到“1分鐘講清楚一部電影”,但可做到“兩句話講清楚一個10分鐘以內的短影片”,這意味著透過該技術未來可迅速判斷整個影片的關鍵資訊是否包含黃賭毒等違規內容。

更快更準識別違規風險內容

 

透過這兩個功能,AI能快速識別、準確定位違規片段,無需人類鑑黃師反覆回看確認。

 

雍秦透露,在SGR技術研究基礎上,阿里安全近期還將研發低門檻、高可用的“鑑黃”AI工具,讓AI對影片不同片段打出“危險指數”,依賴資訊提取直接關聯高亮風險片段,讓AI鑑黃更智慧、高效。

 

未來,在實際應用場景中,透過AI來進行不良內容識別的研判準確性和效率將大幅提高,比如判斷影片內容中是否有“一個穿著暴露蘿莉裝的女孩鴨子坐著在錄吃播”,以往要形成“暴露蘿莉裝”“鴨子坐”“吃播”三個標籤,每次依據一個標籤進行一輪稽核,判斷影片內容是否涉嫌低俗,三輪稽核交叉驗證。創新工具應用後,AI只用輸入“一個穿著暴露蘿莉裝的女孩鴨子坐著在錄吃播”這句話進行一輪研判,準確性也更高。

影片內容安全和影片檢索等場景前沿技術SGR分析 

圖說:阿里安全近期將研發低門檻、高可用的“鑑黃”AI工具,該圖為示意模型。

 

 

阿里安全圖靈實驗室資深演算法專家華棠指出,阿里安全一直希望從源頭守護安全,這是阿里提出的安全方法論“新一代安全架構”的核心理念。“網際網路上每天產生如此多的影片數量,單靠人力無法維護網際網路清朗環境,從上述案例也能看到,違規影片內容危及大眾心理健康和財產安全,我們希望創新演算法可以有更多用武之地,構建美好安全的網路生活。”


SGR技術詳解

       現有的密集型影片描述生成方法採用自底向上的方式,即先生成大量的事件候選片段,再為每個片段獨立的生成描述,從而組合得到密集型影片描述。然而,影片中事件具有很強的多樣性,既可以簡單到是一個動作,也可以複雜到是若干事件的組合,這導致事件候選片段的生成目標不明確,進一步導致對應的密集型描述不夠連貫和準確,且充斥著大量冗餘。

 

      對此,我們提出了自頂向下的密集型影片描述方法(SGR)。給定一個影片,我們首先為其生成一個包含多句連貫描述的段落,對於段落中的每句描述,我們接著將其定位到影片中的片段上,從而得到連貫的密集型影片描述。透過這種方式,SGR的所產生的事件候選片段可以無縫銜接成一個完整的故事,保證了密集型描述的連貫性且減少了冗餘。為了進一步增加影片片段的描述細節,我們設計了描述提升模組,以初步得到的密集型影片描述和影片片段為基準,並提出專用於描述質量提升的強化學習策略,來生成細節更豐富的密集型影片描述。

 

方法結構如下圖所示:

影片內容安全和影片檢索等場景前沿技術SGR分析


相關文章