視訊稽核:從優衣庫試衣間說起

發表於2019-05-11
“優衣庫試衣間”視訊之後,北京三里屯的優衣庫儼然已經成了朋友圈朝拜的景點之一。這又印證了那個萬古不變的真理:黃賭毒的病毒傳播屬性總是驚人。
不過,不是說好網監手伸的又長又廣嗎?不是說好視訊稽核很嚴格嗎?這樣的視訊是如何在一夜間不斷被刪又不斷流出?
某視訊網站的工作人員告訴雷鋒網記者,目前他們每天處理的短視訊上傳量在150萬左右,而稽核人員不超過50個,視訊稽核的工作一大部分由機器負責。
影像識別和聲音識別都還好說,機器是如何稽核視訊的?
入門級:MD5
先來看看國家不喜歡什麼樣的視訊。
在下發的《網路視訊審查管理規定》中,一共對十類視訊不予審查通過,大而言之是反對憲法基本原則的、危害國家統一、洩露國家祕密等。
不過某視訊網站告訴雷鋒網記者,更接地氣一些的形容是三類:色情、暴恐和極端宗教主義。除了規定所有使用者自發上傳的視訊需要進行嚴格審查之外,網監還會對網際網路上已經發布的視訊進行二次稽核。“參與稽核的人數多到讓你震驚”,某位業內人士這樣告訴雷鋒網記者。
在中國,每個公民都有一個唯一的身份證號(ID),通過這個ID可以全方位的定位一個人的年齡、性別、出生地等,同比MD5就是視訊的ID。網監有一個巨大的危險MD5庫,庫內藏著各種不能流於世的視訊。視訊網站都需要接入這個庫,並在實際稽核中增加自己的庫存。
在早期,過濾視訊的第一步就是橫掃整個庫,把MD5吻合的視訊直接剔除,並將它提交給公安違禁庫。
不過,某短視訊網站的工作人員M告訴雷鋒網記者,匹配MD5正在逐步棄用,原因在於MD5非常容易被篡改,在視訊中加入文字或者修改任意一幀就能實現。
於是,出現了更高階別的稽核辦法。
效能級:機器稽核
通過MD5之後的視訊,第二步會經歷機器稽核的過濾。市面上已經有成熟的第三方公司提供API介面,輔助視訊網站進行機器稽核。
圖普科技的CEO李明強告訴雷鋒網,機器稽核視訊是基於深度學習影像識別雲,實際也是將視訊截圖,由機器稽核每一張截圖的安全性。不過具體是3秒截一張還是5秒截一張,鬆緊度由視訊網站自己控制。

[img=網路視訊,加密解密]http://7te8bu.com1.z0.glb.clouddn.com/uploads/new/article/740_740/201509/55ed4a644898d.jpg[/img]

李明強介紹,機器稽核視訊原理是先建模,然後匯入海量的違禁視訊,讓多個機器同時進行深度樣本學習,再標註無法通過的影像種類,進而把這些樣本揉碎、旋轉、新增“噪音”,提高機器識別能力。這其中拼的不止是技術,還有樣本相簿的大小。據瞭解,在圖普科技的樣本庫中,有超過1億的色情樣本和千萬級別的極端宗教主義樣本特徵。
對於不能通過的視訊,機器稽核視訊會給出兩類結果:確定不能通過的,這類的準確率幾乎能達到99.5%以上;僅作參考的,準確率在95%到97%,這可能意味著該視訊需要再次進行人工稽核。
據雷鋒網瞭解,從整個行業來說,機器基本能篩過99%的視訊,只有1%需要再次動用人工。如果是150萬的視訊,那人工只需要稽核1.5萬個。
專業級:機器+人工稽核
第三方的技術可以直接拿來用嗎?M告訴雷鋒網記者,當然不行。拿來的只是底層,還要把機器再過一遍自己的樣本相簿,提高機器的識別能力。
M介紹,目前視訊網站的稽核坐席基本都是7x24小時工作,在臨近閱兵、六四等重要日子,還要加大稽核人員的配置。對於機器沒有通過的視訊,稽核的工作人員會把其每6秒截圖,一頁60張圖,一眼掃過去就可以判別視訊是否真的觸了紅線。

[img=網路視訊,加密解密]http://7te8bu.com1.z0.glb.clouddn.com/uploads/new/article/740_740/201509/55ed4aa508926.jpg[/img]

第三方公司還會提供更加人性化的服務,例如對於可能需要人工再次稽核的視訊,會把機器判定是敏感圖片的截圖放在最靠前的位置,方便工作人員進行鑑別。
在機器和人工稽核的雙重過濾下,目前的視訊網站基本可以實現上傳視訊一個小時內給出稽核結果。
攻略若干
M介紹,目前的違禁視訊排除少數政治原因和個人信仰之外,以色情居多,而且已經形成了完整的經濟鏈條:販賣色情小電影、勒索和色情裸聊數不勝數。有了經濟利益的催動,稽核的難度會變大很多。
當然,為了減輕稽核工作,視訊網站也有很多竅門,比如新使用者和高危使用者的上傳會優先稽核,他們是“重點關注物件”;明星、大V等賬號會被設定成為信任賬戶,預設他們釋出的視訊不用通過稽核。
漏洞也是有的。目前的視訊稽核基本只稽核影像,不稽核聲音。這意味著,如果一段視訊用正常的影像配上違禁的配音,也可以逃過審查。三星研究院負責聲音識別的工作人員告訴雷鋒網記者,目前對聲音的識別技術已經非常成熟,沒有將它運用到視訊稽核中,是因為僅用聲音違規的視訊是少數,還不成規模。
在國內,幾乎所有的視訊網站都是“先發後審”:視訊先發布,打上網站水印,自己或者關注自己的好友能夠看到,接著再進行稽核。因此這也不奇怪,像“優衣庫”中帶著水印的視訊滿天飛了。
最後科普一下,視訊網站除了會對釋出違禁視訊的使用者封號處理之外,還會把其IP彙報給網監,據說散佈危害國家安全的視訊判六年。如果你有個朋友突然消失了,你們感受感受。
完整內容點此檢視
回覆

相關文章