導語:V2EX上有一個這樣的問題:“V友們對評論敏感詞過濾有什麼好的解決方案嗎”,一位叫“TimePPT”的網友從“量級、業務需求、策略”等角度做了詳細回覆,回答的內容不僅專業,質量也非常高。
在獲得“TimePPT”授權的前提下,網易雲易盾再次編輯相關內容,希望透過它讓大家少走一些內容安全上的彎路。
以下為正文:
我因為工作關係做過一段時間反垃圾(內容安全)的產品工作。
在細緻地講解之前,大家必須有一個清晰的認識:黃反過濾其實是一門技術加運營持續投入的工作。
首先看量級
如果內容量級不大,怎麼都能搞。網上找或者透過關係能找到一個比較新的幾萬、幾十萬敏感詞的詞表Loading到記憶體裡,起一個Server直接判斷過濾,雖然簡單粗暴,但有效——當然,錯報和漏報率肯定也不會低。
但這種方法一旦遇到變種或者量級一大就不管用了,錯報、漏報率會蹭蹭往上漲。如果自己人工加規則,跑到最後往往都會“瘋”了。
如果量級大到一定程度,就得考慮長久的黃反策略,什麼貝葉斯過濾、迴歸聚類、機器學習都得往上堆。
其次看業務需求:
業務方涉及到的僅僅是評論內容,還是說有大段文章內容。對黃反實時性要求有多高?錯報率和漏報率容忍度有多高?這些直接影響著產品技術策略。
還有就是有沒有富媒體內容,比如評論帶圖、帶影片,那就不單單是過濾關鍵詞的問題了,還得有影像識別黃反。另外,業務層面要不要求留有餘地,比如因為KPI的緣故——允許一定擦邊球存在,所謂水至清則無魚……運營人員很可能不希望你趕盡殺絕呢!
再講策略
UGC內容在大面上策略無非是先審後發,還是先發後審,這兩種的產品策略是不一樣的,而且需要按照上級部門要求調整。所以產品設計上要留有餘地。另外,因為任何機器演算法都做不到極高的準確率和覆蓋率,那麼錯報、漏報肯定是有的。
目前大量級的產品在黃反層面絕大多數是靠機器初篩+人工二次篩選,特別是圖片、影片黃反,單靠機器比文字黃反難度大很多。
還有就是在產品策略上增加舉報按鈕,讓使用者協助完成黃反的前端自稽核。
以上種種,就是一些經驗之談。
最後:為什麼我不建議自建內容安全系統
第一,我覺得黃反這種一般都跟審查相關,有一些敏感詞的第一手資料其實是跟上級部門走的比較近的公司或者大體量公司才有的(比如 BAT、四大門戶、搜尋引擎),所以詞表的維護上一般公司其實是遲滯的、後驗的,很多踩線問題後知後覺,結果被相關監管部門叫去“開會”,嚴重的被下線服務甚至被關停。
第二,就算投入大量人力、物力自建了,但你能收集到的垃圾資訊樣本量是否能夠滿足模型訓練效果,這也是必須得考慮的。
第三,黃反在運營層面的重要作用是為了避免垃圾資訊干擾正常運營,但運營其實對這塊的要求大多很模糊,原因很多,比方說上面我提到的 KPI 導向……所以這塊也得留出餘地來,否則惹的一身騷,出力不討好就難受了。
黃反工作是比較嚴肅複雜的工作,這也是為啥我建議一般企業直接購買穩定的第三方黃反服務的原因,持續投入成本其實很高,且這部分工作有時候在公司內部不太被重視,出力不討好。沒問題時沒功勞,有問題就找你麻煩了(比如殺多了 KPI 指標降了、漏報導致踩紅線了……)。
作者介紹:TimePPT,8年網際網路產品經理,現在正在活躍於AI領域。
來源:https://www.v2ex.com/t/378618