“AI鑑黃師”資料解決方案 | 景聯文科技

景聯文科技發表於2023-01-06

人工智慧技術除了在自動駕駛,智慧安防,智慧金融等領域得到廣泛應用,在網際網路內容稽核領域也發揮著巨大價值,AI鑑黃是應用之一,對AI內容稽核技術來說,高質量的訓練資料集必不可少。

社交網路平臺的資訊傳播具有迅速、碎片化的特點, sq,打擦邊球的低俗內容更容易獲取流量,汙染平臺內容環境,是全球內容平臺治理的共同難題。這幾年隨著直播和短影片的爆發,加劇了網路低俗內容的泛濫,在此背景下,國家對內容稽核的要求越來越嚴,監管政策不斷收緊,要求各大網路平臺增強網上涉低俗資訊內容的鑑別過濾能力。

“AI鑑黃師”資料解決方案 | 景聯文科技

透過研究人工智慧技術,很多科技演算法廠商使AI在網際網路內容稽核領域得到落地,為電商、直播、社群、新聞等第三方平臺提供內容稽核服務,行業領先的企業主要有百度智慧雲,阿里綠網,網易易盾,圖普科技等。

以百度智慧云為例,主要提供影像稽核,影片稽核,語音稽核,文字稽核等人工智慧稽核方案。

影像稽核:

基於深度學習技術,準確過濾影像中的暴恐、政治敏感、廣告、噁心、不良場景等違規內容。

可以應用於社交應用影像稽核,對實時聊天中的敏感影像進行高效過濾稽核;可以應用於社群論壇影像稽核,對社群、論壇、貼吧等平臺中的影像進行稽核,過濾暴恐、政治敏感、惡意推廣等內容;可以應用於使用者頭像稽核,對影像中人臉的角度、遮擋、佔比、清晰度等進行稽核,確保影像中包含清晰人物正臉、非明星/卡通人臉,並且無暴恐、政治敏感、微商廣告、各類聯絡方式內容。

影片和語音稽核:

對影片檔案或直播影片流進行影像和音訊兩大維度的稽核,有效過濾影像中的 sq、暴恐、政治敏感、廣告、噁心、不良場景等違規內容。可以應用於影片直播,對影片、直播的截幀影像進行實時自動稽核,實時檢測UGC短影片社群使用者自主上傳影片的違規內容,對涉黃語音,嬌喘,廣告語音進行精準識別,快速高效,過濾違規內容。

文字稽核:

基於自然語言理解、深度學習等技術,有效識別 sq 、暴恐涉政、惡意推廣、辱罵、違反廣告法、涉及違禁品等文字內容。具體的應用場景比如影片直播中的彈幕和社群論壇的留言,對使用者評論資訊進行檢測,一旦發現使用者提交違規內容,進行自動稽核與實時過。適用於各種內容生產和分發平臺,能夠準確識別出文字中的sq 、低俗、涉政、違禁等內容,避免使用者上傳違規內容到平臺。

AI鑑黃使用的人工智慧技術主要有深度學習目標檢測、影像分類、特徵檢索、語音識別、聲紋識別小語種識別、OCR技術、NLP技術、上下文語義識別等,對影像,影片,語音,文字中的區域性和全域性資訊進行分析,捕獲不同型別的sq和其他違禁內容,並對其進行處理。

簡單來說,鑑定一張圖片是否是 sq圖片,需要透過深度學習和海量資料庫得到一個鑑黃模型,該模型透過分析資料的特徵對其進行分類,最終給出該資料是否屬於 sq資料的結果。在這其中,存在兩個難點和重點。

第一是標準。判斷標準是人為界定,涉黃內容也分很多種, sq、性感、低俗等資訊分類在人類不同文化裡尚有不同解讀標準,而且針對不同場景,根據實時的法規政策和輿論動向,稽核標準可能存在變化,因此需要根據實際情況不斷清晰化和細分化分類標準。目前對絕大多數演算法廠商來說,使用AI技術先把大部分違規內容辨別出來,對剩餘少量難判斷、打擦邊球、隱晦的內容,仍然需要人工審查介入,來做到雙重保險。

第二,既然使用到人工智慧技術,訓練資料的質量好壞對演算法除錯的影響是非常重要的,優質資料支撐高質量的演算法模型。在確定了違禁資料的定義後,需要收集大量樣本資料,去進行樣本模型調優和資料集再訓練,目的是讓計算機擁有更高智慧,理解人類的情感、價值觀、潛意識,以及聯想能力,以減輕稽核員的壓力。這個工作會耗費大量的時間和人力成本,並且需要一直進行。與之對應的是,AI鑑黃的最佳化程式也永遠沒有盡頭,因為總有網路不法分子用各種方式試圖突破和對抗科技廠商的安全策略。

用來訓練的資料集數量是否匱乏、場景是否豐富、類別特徵是否明顯,以及是否存在干擾檢測因素(如人為遮擋,畫中畫),都將影響模型鑑定的準確率。

依託自建資料庫和豐富的資料採集和資料標註經驗優勢,景聯文科技推出相關影像和文字標註資料集。在標註方面,標註型別主要有文字標註,影像拉框和人像語義分割。文字標註標註行級文字的四邊框,檢測框精度不低於95%,文字轉寫精度不低於95%,影像標註四邊形框頂點偏差不超過五個畫素,人像語義分割,可以用來訓練影像分類器,鑑黃模型,目標檢測,人體例項分割,人體行為識別等任務。

經過多年沉澱,目前景聯文在全國範圍內擁有5個標註基地,220名全職人工智慧訓練師;上線了自有標註平臺,涵蓋了絕大多數主流標註工具,支援語義分割、拉框標註、多邊形標註、關鍵點標註、3D點雲、2D3D融合標註、圖片分類、聲紋識別、ASR轉寫、韻律標註、NLP、文字分類、OCR轉寫、情緒判斷等多種標註業務;提供企業私有化部署、跨地區作業等定製服務。

在AI資料服務這條賽道上,景聯文科技還提供智慧駕駛,智慧安防能多場景的定製化資料解決方案。未來,將繼續為AI落地提供更多高質量、場景化的資料支援。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70025739/viewspace-2931054/,如需轉載,請註明出處,否則將追究法律責任。

相關文章