阿里安全AI識別語義分析技術再獲突破可快速攔截色情黑話

阿里安全發表於2020-09-24

原文網址 : https://zhuanlan.kanxue.com/article-13932.htm

近日，阿里安全宣佈，面對“多人運動”“王者五排”等不斷變異升級的黑話暗語，阿里AI鑑黃技術能力升級，可精準快速地進行識別攔截。這對人工智慧技術的發展具有非常重要的意義，讓AI引入知識後並不對原始語義產生曲解，正是訓練智慧AI模型需要重點解決的難題。

涉黃黑話變異升級難識別

在內容安全場景下，黑灰產通常會利用黑話來繞開檢測引擎，比如會出現這種語句“小哥哥，要不要來我們這裡多人運動啊？”“大號玻璃過濾彩珠大水瓶玻璃水壺全套配件到手即用”。

“這對人工智慧技術帶來了非常大的挑戰。”阿里安全高階演算法專家開陽表示，目前谷歌釋出的BERT自然語言處理模型已經在文字理解領域取得了突破性進展，但在識別上述黑話時仍難以發揮作用，尚不能撕掉黑話的“偽裝”，辨別其指代“色情、毒品”的本來含義。

對此，開陽解釋，技術和預訓練語言模型有一定侷限性，經過大量公開語料進行學習訓練後，模型能理解字、詞、句之間的語義關係，比如判斷“足球”跟“多人運動”屬於同類話題；“水壺”“器皿”和“燒水”屬於同類話題。

“‘多人運動’等黑話通常背後由某個特定事件造成，這些事件比較隨機，也無規律可循。”開陽介紹稱，這樣的語料難以積累，加上佔比極低，建立預訓練模型變得不太容易。

AI技術升級可理解文字語義

那麼，鑑黃機器人能否接收到“多人運動”黑話背後的事件資訊，從而給出更精準的判斷？

開陽稱，阿里新一代安全架構核心AI技術可以做到這一點。他介紹，如果過去的鑑黃AI只停留在識別直觀的“圖片、字串、語音”這些表層資訊上，升級之後的鑑黃AI則可以理解字串背後的深意。如果看到“小哥哥，要不要來我們這裡多人運動啊？”這樣的語句，AI經智慧分析後可識別出這是一條色情資訊。

“升級後的AI鑑黃師增加了基於知識圖譜的識別黑話的能力，將人工經驗知識引入，讓機器智慧與人工經驗更好地結合，大大提升了文字理解與語義識別的能力。”開陽介紹，這也是技術升級後的最大亮點，只需要把新的黑話知識新增到知識圖譜中就可生效，發現輿情事件導致的變異時間可能在小時級，但識別只需幾十毫秒。

簡單而言，就是以熱點事件為中心，圍繞事件本身，將相關聯的人物、事件、特定的詞語繪成一張關聯圖譜。以“多人運動”為例，將出軌事件新聞作為核心，關聯該事件的男女主角、事件引發的熱詞“多人運動”“王者五排”“群P”等。

阿里安全AI識別語義分析技術再獲突破可快速攔截色情黑話

圖說：以羅XX事件為例打造的關聯圖譜

由於升級後的技術可識別更隱晦、內涵的風險內容，AI技術除在鑑黃領域大有可為外，還能大大提升與其他黑灰產變異升級的對抗能力。“我們的模型能針對新事件快速感知，基於事件發掘新關聯詞，並構建知識，及時為新風險識別提供能力。”開陽說。

愛奇藝短影片軟色情識別技術解析
2019-02-22
Google Brain推出語音識別新技術、面部表情識別助力商業再發展|AI一週學術
2019-04-29
GoAI
愛奇藝短視訊軟色情識別技術解析
2019-02-22
阿里AI獲影象識別冠軍百萬影象識別演算法可跑在手機上
2019-07-31
阿里AI演算法
語音識別技術
2018-03-04
阿里安全新一代安全架構核心AI技術獲國際頂會認可
2020-08-19
阿里架構AI
谷歌再獲語音識別新進展：利用序列轉導來實現多人語音識別和說話人分類
2019-08-28
谷歌
再獲認可！青藤獲評2023年江蘇省網路安全技術支撐機構
2023-04-03
HandlerInterceptor - 自定義攔截器
2024-03-21
ai行為識別技術監控
2024-09-04
AI
微信域名攔截檢測介面最新技術
2020-05-29
SpringBoot攔截器中獲取註解、攔截器中注入Service
2024-07-04
Spring Boot
過濾器和攔截器 6 個區別，別再傻傻分不清了
2020-06-04
過濾器
過濾器和攔截器 6個區別，別再傻傻分不清了
2020-09-12
過濾器
如何將截圖快速識別成文字？
2024-05-14
Spring Boot第七彈，別再問我攔截器如何配置了！！！
2020-10-09
Spring Boot
Flume內建攔截器與自定義攔截器（程式碼實戰）
2020-12-13
如何藉助AI語義分析技術，提升保險企業服務水平？
2021-03-24
AI
Dubbo自定義日誌攔截器
2019-03-04
day13-自定義攔截器
2023-02-18
阿里AI語音鑑黃反垃圾服務上線公測可識別多種外語和方言
2020-01-14
阿里AI
axios原始碼分析——攔截器
2018-06-18
iOS原始碼
語音識別技術發展漸入佳境 AI企業奮力前行
2019-03-21
AI
聽懂未來：AI語音識別技術的進步與實戰
2023-12-14
AI
【小知識】spring攔截器獲取到介面資訊並上報
2022-05-27
Spring
微信域名攔截檢測和防封技術分享
2020-06-08
澎思科技行人再識別（ReID）技術取得突破，重新整理三大資料集世界記錄
2019-07-09
大資料
從不溫不火到炙手可熱：語音識別技術簡史
2019-08-23
繼行人再識別後，澎思科技車輛再識別（Vehicle ReID）技術重新整理世界紀錄
2019-12-19
SpringBoot 攔截器獲取 @RequestBody 引數
2022-08-30
Spring Boot
語音識別技術竟然發展如此迅速
2019-04-19
阿里安全摘下AI視覺“奧斯卡”雙料冠軍突破行為檢測技術瓶頸
2020-07-23
阿里AI視覺
Java日期時間API系列39-----中文語句中的時間語義識別（time NLP 輸入一句話，能識別出話裡的時間）原理分析
2021-06-11
JavaAPI
重磅公開！阿里語音識別模型端核心技術，讓你「聽」見未來
2019-01-16
阿里模型
重磅公開！阿里語音識別模型端核心技術，讓你“聽”見未來
2019-01-15
阿里模型
SpringBoot攔截器及原始碼分析
2021-07-11
Spring Boot原始碼
【技術分析】惡意 SPL 代幣識別指南
2024-10-11
OCR識別技術
2019-11-04

阿里安全AI識別語義分析技術再獲突破 可快速攔截色情黑話

相關文章

阿里安全AI識別語義分析技術再獲突破可快速攔截色情黑話