近日,阿里安全宣佈,面對“多人運動”“王者五排”等不斷變異升級的黑話暗語,阿里AI鑑黃技術能力升級,可精準快速地進行識別攔截。這對人工智慧技術的發展具有非常重要的意義,讓AI引入知識後並不對原始語義產生曲解,正是訓練智慧AI模型需要重點解決的難題。
涉黃黑話變異升級難識別
在內容安全場景下,黑灰產通常會利用黑話來繞開檢測引擎,比如會出現這種語句“小哥哥,要不要來我們這裡多人運動啊?”“大號玻璃過濾彩珠大水瓶 玻璃水壺全套配件到手即用”。
“這對人工智慧技術帶來了非常大的挑戰。”阿里安全高階演算法專家開陽表示,目前谷歌釋出的BERT自然語言處理模型已經在文字理解領域取得了突破性進展,但在識別上述黑話時仍難以發揮作用,尚不能撕掉黑話的“偽裝”,辨別其指代“色情、毒品”的本來含義。
對此,開陽解釋,技術和預訓練語言模型有一定侷限性,經過大量公開語料進行學習訓練後,模型能理解字、詞、句之間的語義關係,比如判斷“足球”跟“多人運動”屬於同類話題;“水壺”“器皿”和“燒水”屬於同類話題。
“‘多人運動’等黑話通常背後由某個特定事件造成,這些事件比較隨機,也無規律可循。”開陽介紹稱,這樣的語料難以積累,加上佔比極低,建立預訓練模型變得不太容易。
AI技術升級可理解文字語義
那麼,鑑黃機器人能否接收到“多人運動”黑話背後的事件資訊,從而給出更精準的判斷?
開陽稱,阿里新一代安全架構核心AI技術可以做到這一點。他介紹,如果過去的鑑黃AI只停留在識別直觀的“圖片、字串、語音”這些表層資訊上,升級之後的鑑黃AI則可以理解字串背後的深意。如果看到“小哥哥,要不要來我們這裡多人運動啊?”這樣的語句,AI經智慧分析後可識別出這是一條色情資訊。
“升級後的AI鑑黃師增加了基於知識圖譜的識別黑話的能力,將人工經驗知識引入,讓機器智慧與人工經驗更好地結合,大大提升了文字理解與語義識別的能力。”開陽介紹,這也是技術升級後的最大亮點,只需要把新的黑話知識新增到知識圖譜中就可生效,發現輿情事件導致的變異時間可能在小時級,但識別只需幾十毫秒。
簡單而言,就是以熱點事件為中心,圍繞事件本身,將相關聯的人物、事件、特定的詞語繪成一張關聯圖譜。以“多人運動”為例,將出軌事件新聞作為核心,關聯該事件的男女主角、事件引發的熱詞“多人運動”“王者五排”“群P”等。
圖說:以羅XX事件為例打造的關聯圖譜
由於升級後的技術可識別更隱晦、內涵的風險內容,AI技術除在鑑黃領域大有可為外,還能大大提升與其他黑灰產變異升級的對抗能力。“我們的模型能針對新事件快速感知,基於事件發掘新關聯詞,並構建知識,及時為新風險識別提供能力。”開陽說。