華為雲與鑑黃師不得不說的那些事

weixin_33766168發表於2019-01-02

相傳,在當今時代中有一個神祕的職業——鑑黃師。他們閱片無數,能聽聲辨位並精準稽核並識別出各類違規內容加以處置。但鑑黃師工作量巨大而且人力有限難免有所紕漏,那麼如何還網際網路一個清靜之地,真正實現精準、統一、全面的鑑別違規內容呢?華為雲的內容稽核服務就可以幫助鑑黃師擺脫當下面臨的這一煩惱。

\"\"

網際網路每天都在產生大量資料,對內容的稽核帶來了很大的挑戰,在萬物互聯的今天,人工稽核不僅要付出巨大的勞動力而且難免有不當之處。因此,華為雲推出了內容稽核服務(Content Moderation),主要涵蓋了文字內容檢測、涉政敏感檢測、視訊內容稽核、圖片內容檢測、影象反黃檢測等。當前行業中,內容稽核主要有人工稽核和智慧稽核兩種方式,人工稽核需要大量勞動力全天候進行肉眼 + 機器輔助模式的內容稽核,問題在於時效性差、風險高、而且規模過大時無法匹配;而智慧稽核則以 AI 技術為基礎,人工判決為輔助。而在當下,能夠提供智慧稽核技術的雲平臺並不少,這也就給各家企業技術選型造成了困擾。

那麼如何選擇適合企業而且效能卓越的雲服務呢?為了讓開發者全面客觀的瞭解華為雲內容稽核服務效能,華為雲聯合 InfoQ 共同發起了一場開發者眾測活動,18 名來自不同企業的開發者給出專業的建議,下面是詳細的測試使用報告。

一、文字內容檢測測試

在去年,國家網際網路資訊辦公室《網際網路群組資訊服務管理規定》明確了網際網路群組建立者、管理者應當履行群組管理責任,即“誰建群誰負責”“誰管理誰負責”,對於文字內容的雲端檢測更是成為重中之重。華為雲在內容檢測方面的服務主要有以下幾種:涉黃、涉政、廣告、辱罵、違禁品和灌水文字內容等,還提供自定義的文字敏感內容檢測方案。

涉黃、涉政、廣告、辱罵、違禁品文字測試

原理:呼叫華為雲提供的 API,可自由設定過濾內容型別,分別為:politics(涉政)、porn(涉黃)、ad(廣告)、abuse(辱罵)、contraband(違禁品)、flood(灌水),不輸入預設為全部篩選。根據使用者輸入內容,過濾出文字內容中的“中標詞句”,分別把語句放在涉及到的屬性下面。返回結果如下:

\"\"

自定義的文字敏感內容檢測測試

原理:使用者在後臺文字內容檢測服務上面自定義配置,並勾選不指定檢測場景時啟用,可對全部過濾生效。也就是自己建一個關鍵字型檔,生效規則與其他預設一致。

\"\"

測試感受:

1、在涉黃、涉政、辱罵、廣告等單個測試時準確無誤,在多種組合的場景下,華為雲也可以根據返回結果分別檢視各個屬性下的不同的犯規詞語。

2、對於網路用語的灌水文字測試正常,檢測出灌水文字反應迅速。值得一提的是,由於網路流行與變更速度很快,而華為雲的網路灌水詞庫在進行實時更新,可以實現自我優化。

3、而在測試中,華為雲最具特色的一項功能就是可以自定義詞庫,這項功能在內容檢測標準容易變化的場景下能夠更好的控制文字內容;包括政治敏感詞、網路用語等詞庫還做到了實時更新,使得整體服務更加安全。

小結:華為雲文字內容檢測基本滿足了常用文字檢測,支援自定義詞庫來加以補充,再加上實時更新,使得整體開發體驗更為安全和智慧。

二、反黃檢測服務測試

色情性感圖片檢測測試

原理:根據圖片或者圖片連結,華為雲 API 返回三個維度對應的比例,分別是正常比例、色情比例、性感比例,返回值裡的引數 suggestion 結果為 block,則判定為色情圖片;性感圖片的返回值裡的引數 suggestion 結果為 pass,在三個維度的比例中性感比例最大,則認為該圖片是性感圖片。對於正常與色情比例接近的會返回 review,需要人工確認。

除了普通畫面的圖片外,華為雲還支援畫中畫涉黃內容的檢測,驗證反黃檢測服務可以識別小視窗涉黃圖片。

測試感受:

針對黃色圖片檢測準確,性感圖片準確,畫中畫涉黃檢測也可以正常反饋,整體流程順利,在特殊情況下也會提供給人工進行確認,沒有發生誤判情況。

小結:反黃檢測針對各個企業都是一個重度需求,人工智慧對圖片內容檢測很有必要,華為雲在這方面做的不錯,值得使用者信賴。

三、暴恐識別服務測試

槍支刀具類測試

原理:根據圖片或者圖片連結,華為雲 API 返回多個維度對應的比例,分別為:fire、bloody、gun、knife、flag、tiananmen、crowd、dress、symbol、normal,如果符合要求就會給出結果為block,根據各個維度的比例大小來判斷中標那個維度。這裡以槍支作為例子,測試結果如下:

槍支:

\"\"

人群聚集測試

驗證暴恐識別服務還可以準確的識別人群聚集類圖片,若是測試結果中的 suggestion 值若為 block, 且 crowd 的置信度值佔比最大,則表示該圖片含有人群聚集元素。

測試感受:

1、在測試中槍支圖片測試正確。

2、人群聚會檢測正確,使用體驗流暢

3、現在聚會地點以天安門為例進行了檢測,結果無誤。也可以做成自定義地點,支援國內大部分標誌性建築。

小結:槍支刀具的檢測可以稱之為線上安檢機,華為雲整體表現非常卓越。但這部分服務對企業來講,需求量並不夠大,非剛需內容。

四、涉政敏感檢測服務測試

原理:根據圖片或者圖片連結,華為雲 API 返回的結果中給出識別出的名字,根據結果是否為 block,判斷是否為違規圖片。華為雲服務,支援國家領導人、烈士與恐怖分子識別,測試結果如下:

\"\"

測試感受:

1、各國國家領導人識別正確,能夠正確給出姓名;多個領導人也可以識別,識別度很高;測試中中國地市以上級別領導人以及國外名人也能識別正確。

2、烈士識別方面對知名人物識別無誤,而針對一些沒有圖片的烈士,很大一部分是後人繪畫留存,可能導致識別率降低,可以通過更新學習庫進行改進。

3、恐怖分子測試,一些臭名昭著的恐怖分子檢測準確率很高;一些較為少見恐怖分子識別難度較高,但可以通過更新學習庫增加識別準確率。

小結:華為雲服務在這塊中表現最好的是對國家領導人與國際高管的識別,在烈士與恐怖分子識別上處於同行業前列水準,而通過更新學習庫也可以進一步增強。

五、視訊內容稽核服務測試

原理:需要使用者上傳視訊,然後根據返回的任務 id 取查詢視訊的處理狀態。狀態有四種型別 created(已建立)、running(正在處理)、finish(已完成)、failed(處理失敗)。測試結果可以檢視 suggestion 的值,當同時檢測多個場景時,suggestion 的值以最可能包含敏感資訊的場景為準。即任意場景出現了 block 則總的 suggestion 為 block,所有場景都 pass 時 suggestion 為 pass,這兩種情況之外則一定有場景需要 review,此時 suggestion 為 review。

測試感受:

內容視訊測試準確,分析原因可能為視訊資源幀相對較多,可分析圖片也多 ,因而使得測試結果更準確, 測試結果可以給出具體哪一型別問題產生結果,並且可以在色情、涉政、暴恐等各個維度分別給出可能性比例。

小結:視訊內容檢測服務容納的型別更多,反黃、暴恐、涉政都會有涉及,這個考驗了雲服務內容檢測的綜合功能。華為雲在這一塊表現不錯,充分證明了自己的技術。

總結

在本次測試中,華為雲在視訊、圖片、內容等各個方面的檢測中,針對現有網路中資源較多的內容檢測準確率很高,這可以顯示出其在資料分析以及智慧識別等領域的技術沉澱深厚;而在一些變數較高的內容識別檢測時,也可以通過更新學習庫以及更新檢測內容標準實現準確率的提升。在實際應用中,直播行業對於內容稽核依賴度非常高。華為雲已經成功幫助某視訊直播業務實現整體內容稽核的智慧化升級,稽核效率提升了 90%,能夠智慧化檢測“色情內容”、“涉政”和“暴力”等內容,並且問題視訊可以在 3 分鐘之內快速處理掉。

整體來看,華為雲的廣告語確實可以準確體現出其目前所處的行業地位:有技術,有未來,值得信賴!與開發者和行業夥伴攜手前行, 前方的路依然很長。

更多華為 EI 內容稽核資訊,請見:https://www.huaweicloud.com/product/imagemoderation.html

相關文章