人身攻擊與引戰類評論的社群治理

陶然陶然發表於2024-02-19

   1. 治理背景和目標

  1.1 治理背景

  B站作為一個有用有趣的綜合性影片社群,每個使用者都是在與內容的互動過程中形成單向/雙向關注和身份上的群體團結,具有相同興趣愛好的小夥伴聚集在一起形成不同圈子,所以,當小部分使用者在社群中有貶低或者拉踩其他使用者的行為,甚至出現人身攻擊等惡意發言,社群氛圍很容易被破壞。

  社群文化和價值的體現來源於內容的創作和交流,其中評論作為B站使用者交流互動最重要的陣地之一,自然也是社群氛圍的重要組成部分。根據2022年6月評論的舉報理由分佈,目前B站負向評論的主要來源為引戰和人身攻擊。

  1.2 治理目標

  社群一直面臨一個挑戰就是:減少貶損、侮辱、誹謗等粗俗人身攻擊內容的曝光,一方面能夠促進正向內容和情緒的流通;一方面希望透過治理引導使用者正向發言,進一步促進社群友好互動、建設社群氛圍,從而讓使用者看到良好的社群環境和氛圍。

   2.平臺人身攻擊內容現狀

  2.1 人身攻擊短詞

  首先需要關注的是無差別的純人身攻擊文字,此類文字是不會隨著社會或者站內熱點事件而變化的包含辱罵、攻擊性質的文字。

  常規的攻擊性短詞是有限且可控的,但是其變體形式是治理的難點。攻擊性短詞的變體主要包括:

  1) 同音同形類(如傘兵、劍冢);

  2) 首字母匹配類(如出生、我測你碼);

  3) 特殊字元、表情、罕見字變體類(如大乃√、🐒)。  

圖2.1.1 :人身攻擊短詞變體分析

  2.2 部分分割槽人身攻擊問題突出

  由於分割槽生態與使用者習慣的不同,對所有分割槽一刀切的治理模式是不可取的。為了既能有針對性地解決問題,又能有效引導社群情緒正向發展,我們對生活、娛樂、影視、知識、科技、運動、遊戲以及音樂這八個區的人身攻擊以及引戰的舉報情況的摸底,從可評估性、可治理性兩個角度發現娛樂、影視區和遊戲區的問題更為突出,具體體現在以下兩個方面:

  在遊戲、娛樂、影視三個分割槽中,人身攻擊舉報的數量遠高於平均值,是總人身攻擊舉報量的大頭。

  在遊戲、娛樂、影視三個分割槽中,人身攻擊舉報評論的前 100 個關鍵字裡面,實體詞的佔比分別為 45%、57%、63%,相比於其他話題豐富的區域,這些分割槽的話題聚焦度更強、可治理性更高。

   3.專項治理過程

  我們首先結合問題評論鎖定要治理的物件是人身攻擊。需要特別說明的是,引戰評論當然也是問題評論中需要去治理的,但引戰問題相對而言更加複雜,定義問題難度更高,因此,在本次治理過程中我們更側重於更能引發負向情緒的人身攻擊評論。整個治理過程見下圖3.1:  

圖3.1 :人身攻擊治理過程

  3.1 無差別覆蓋治理

  1.詞匹配識別

  針對變形體的識別,依賴已經積累的大量的技術手段包括:拼音識別、數字同音識別、漢字相似識別、單詞檢測識別、漢字關鍵詞識別、變形體對映等文字預處理能力。透過對使用者評論進行文字預處理,我們可以對評論進行歸一化,然後使用漢字或拼音進行識別。  

圖3.1.1 :問題和相應文字預處理能力

  舉例其中的漢字相似能力,我們引進了“音形碼“的概念(音形碼的概念非自創,常用於輸入法產品),藉助音形碼可以快速計算出漢字的相似結果,這裡藉助這個概念可以把漢字轉化成機器可以理解的數字串,資料結構大體上如下圖:  

(圖片來源於網路,如有侵權請聯絡刪除)

  這個結構涵蓋了一個字的拼音和字形資料,可以很好的識別 音似例如“傻”和“殺”,形似例如“娘”和“狼”等。具體的上線效果如下:  

  介面直接根據設定好的相似閾值返回風險文字。

  2. 模型識別

  根據資料顯示,不同分割槽中人身攻擊舉報評論的準確度在10%到40%之間,其中絕大多數為陰陽怪氣或者對線過程中稍稍偏激的言論。為此,我們在前期準備了多種演算法模型,包括人身攻擊模型、對線模型以及陰陽怪氣模型。依賴模型的語言理解能力,我們能夠攔截覆蓋掉一部分的純人身攻擊以及引戰文字。  

圖3.1.1 :人生攻擊專項依賴的模型能力

  第一類文字分類模型

  在分類問題上,Fasttext、DPCNN、TextRCNN、Attention、Bert等模型都是比較經典的可用於文字而分類問題上的模型。在 NLP 領域,BERT 的強大毫無疑問,但由於模型過於龐大,單個樣本計算一次的開銷也會比較大,因此,我們使用比較多的是體量更小、速度更快的tiny_bert。在模型訓練的過程中,我們可能面臨的一個問題是樣本質量不夠高導致模型效果不佳,在已有樣本的基礎上,我們會先透過Bert進行樣本提純,再餵給tiny_bert,以提高模型準確度。而在在對線模型中,我們將輸入樣本寫成“[CLS] +當前評論 + [SEP] + 父評論 + [SEP] +“跟評論” + [SEP]”的格式,讓模型學習到對線過程,並採用bert與圖神經網路結合的方式進行對線文字的分類,將預訓練模型BERT與圖網路GCN(GAT)相結合用於文字分類,能充分融合二者處理資料、提取特徵的能力,使得模型有比較好的預測效果。

  第二類文字相似模型

  分類模型能幫我們覆蓋掉大部分的特殊case,而在B站這個社群平臺上,不同的分割槽有著不一樣的文化符號,並且隨著各類社會輿情的發生,部分人身攻擊文字會具有一定的特殊性,而文字相似模型能根據輸入的負向樣本種子,快速準確地覆蓋掉同關鍵詞、同核心思想文字。

  為了使模型持續有效,我們每週對召回資料和舉報資料進行校準,一方面用於評估模型的可用性,另一方面及時向演算法側返回Bad Case和提供新的訓練樣本,以實現模型對使用者多變地發評習性及時作出反應。由於模型的更新並不是實時的,對於突發的高舉報案例,我們將相關的資料經過篩選後放入模型後臺的黑模型樣本集中,對相關負向內容進行攔截。

  3.2 重點分割槽突破

  由於不同分割槽的人身攻擊評論的發評人、討論話題、稿件資訊特性不一致,因此問題的嚴重程度也不一樣,詞+模型並不能完全解決問題,對於無法覆蓋的部分,我們需要對單點問題進行重點突破。

  我們把這一部分的治理分成了以下幾個步驟:

  1. 確定每個分割槽的治理內容;

  基於每個分割槽特性,對重點分割槽深入分析,結合社群知識圖譜系統,對重點分割槽的問題進行細緻梳理並歸納。

  2. 劃分治理等級;

  對不同分割槽的不同問題進行嚴重程度分級。

  3. 確定治理策略。

  結合社群阿瓦隆系統,對線上進行定向管控治理。

  3.2.1 確定分割槽治理內容

  結合社群知識圖譜系統的抽象歸納,並透過分析上半年的的舉報資料,得到重點分割槽現存人身攻擊的需治理的問題,其中娛樂區4個,影視區3個,遊戲區2個。

  3.2.2 劃分治理等級

  綜上,結合舉報資料和評論內容,我們劃分成兩個治理方向:

  一是針對某一具體物件(人或群體)的帶有惡意引導性質或攻擊性的評論,這類評論需要予以攔截;

  二是減少引戰型別且容易被舉報的調侃或負向梗的曝光度。

  3.2.3 確定以及實施治理策略

  我們的策略圍繞著三個維度展開,分別是關鍵詞、人群、稿件以及up主。

  1.關鍵詞維度。

  對於人身攻擊言論,抨擊或辱罵的物件通常是實體。基於此,除了人身攻擊短詞外,我們還分割槽維護了一個“實體——關鍵詞”知識庫。我們結合評論內容和稿件資訊進行精準匹配,基於匹配情況決策處置策略。另外,為了及時發現討論的話題和實體,我們線上使用高討論度的事件人物識別模型,再基於報表展示討論實體,以保證文件資訊的持續更新。

  2.人群維度。

  從發評者角度來看,可按攻擊目標分為兩種:一種針對的是非現實個體(明星、遊戲、影片內容等),佔據大部分,第二種攻擊的物件是站內使用者或UP主。在大多數情況下,第一類使用者群更具穩定性和聚集性,因此我們考慮綜合行為等多重維度來識別第一類人群。

  我們透過互動內容、關係等標記出第一類人群,並採取相應的治理策略。經過治理,被舉報使用者的重複率下降了40%。被舉報使用者的重複率指的是被重複舉報使用者與被舉報使用者總數的比例,這個下降趨勢表明了極端使用者的極端互動行為減少了。  

圖3.4 人群包策略實施前(上)後(下)被舉報使用者重複率

  3.稿件維度和UP主維度。

  某些稿件自帶引戰或者人身攻擊風險,需要及時幹進行干預。對於不同的治理內容,我們結合了關鍵詞、人群稿件以及UP主資訊這幾維度來部署相應策略。被策略識別為高風險的內容中包含較高濃度的攻擊性評論,從中實施高召可以達到精準擴召的效果。

  我們提高召回的方式通常包含兩種,分別是調整單一模型分的閾值和基於多個模型(如陰陽怪氣、對線、文字質量分、立場分)訓練一個融合模型的方式。融合模型方式包括常見的線性融合(如多元迴歸、邏輯迴歸)和非線性融合(樹模型)。而融合模型可以較大程度地豐富召回樣本的多樣性。

  3.3 回查以及跟進

  持續收集模型訓練樣本:資料同學根據標註標準,對每週的舉報資料進行抽樣打標,漏召回case放入模型重新學習,形成良性迴圈;

  敏感詞系統相似模型召回:漏召回的人身攻擊樣本清洗一遍以後,作為相似模型的種子,對問題文字召回;

  基於舉報資料線上回查刪除:被舉報過多次的人身攻擊文字,文字的人身攻擊模型分>閾值,直接刪除;

  策略的迭代和更新:更新的內容除模型外還有負向詞、人群等,基於策略的聚集內容或被反饋的誤召回案例對策略進行回查並迭代;

  資料探查:透過報表展示或告警風險稿件、人群、單評以及各項舉報資料的異常波動。

   4. 治理效果

  經過治理,影視、娛樂以及遊戲三個重點分割槽23年12月份相較於23年6月份,人身攻擊舉報佔比絕對下了31.97%,引戰的舉報佔比24.77%。  

圖4.1 影視、娛樂和遊戲區的綜合人身攻擊引戰舉報佔比

   5. 總結與展望

  經過治理,人身攻擊舉報佔比下降趨勢比較明顯,但是數值上仍有下探空間。網際網路不是法外之地,為了維護一個正向和諧的社群氛圍,我們還可以從以下幾方面去進行最佳化:

  考慮最佳化稿件下的內容展示邏輯,豐富內容排序標準。

  對於“黑話”、負向關鍵詞的挖掘需要更自動化;

  如何引導使用者正確選擇舉報理由或對舉報理由進行二次判定以提高舉報資料的準確度;

  模型短週期的自動化訓練和上線;

來自 “ 嗶哩嗶哩技術 ”, 原文作者:曹森榮&肖巧文;原文連結:https://server.it168.com/a2024/0219/6839/000006839942.shtml,如有侵權,請聯絡管理員刪除。

相關文章