文章來源:阿里安全官網
以往靠鑑黃圖拿工資的人工鑑黃師,他們的工作可能要“涼涼”了。近日,阿里AI鑑黃語音反垃圾服務上線公測,能識別語音中存在的涉黃、廣告等違規資訊。這意味著,除識別色情圖片、色情影片和色情文字外,涉黃語音也能透過AI鑑別了。
以往,傳統的人工鑑黃師透過一雙肉眼鑑別色情圖片和影片。聽起來像是“福利”,但實際上並不輕鬆。如今,伴隨著網際網路上社交媒體、直播、短影片的發展,每天光上傳的圖片超過10億張,發文數量超過5億條,不少色情、暴力等內容充斥其中。人工鑑黃師一天一人稽核1萬張圖片的工作量,遠遠滿足不了這一需求。
2015年10月,阿里巴巴“綠網”上線,用人工智慧識別網路上包括色情、暴力在內的違規資訊,阿里AI鑑黃師應運而生。透過人工智慧、深度學習和大資料樣本等技術,阿里巴巴的AI鑑黃師訓練識別千萬張正常圖片與色情圖片,最終生成一個智慧鑑黃模型。
圖說:阿里AI鑑黃師,用技術解決社會問題
“我們要做的就是拿圖片去‘餵養’它,讓它不斷學習,變得越來越聰明。” 阿里巴巴安全部高階演算法工程師威視介紹:“最初在獲取樣本時,我們篩選了近2000網站、6000多萬色情圖片,經過去重,標註1300多萬張高質量的色情圖片,可以說這是AI鑑黃最重要的一塊基石。”
阿里安全,一向致力於解決社會問題,可以說,高效率、低成本的阿里AI鑑黃技術,正將人工鑑黃師逐漸解放出來。威視表示:AI鑑黃師每天可稽核數億張圖片,識別準確率高於99.5%。舉個例子,一天要稽核4億張圖片的話,單純由人工來審,一人一天審1萬張,需要4萬人,而AI鑑黃只需將其中20萬張可疑的圖片篩出來,由人工再審一道,這需要20人即可。
更厲害的是,阿里AI鑑黃師不僅能鑑別黃片黃圖,連帶有情色資訊的語音內容都能識別。近期上線公測的AI語音鑑黃反垃圾服務,可支援中文、日文、英文等多國語言,還支援東北、四川、廣東等地方言。無語義的呻吟聲也能識別出來。8月21日在北京召開的2018年網路安全生態峰會上,這些成果將集中展示。
當然,AI鑑黃並不能完全取代人工鑑黃,相比人工稽核,機器還很難理解內容背後的深意。“最佳的稽核方式是智慧為主,人工為輔。人工鑑黃師群體數量少了,目前主要做打標和審查可疑圖片的工作。”阿里安全部產品專家念夏說。
文章來源:阿里安全官網