雲音樂評論內容理解技術

雲音樂技術團隊發表於2023-01-16
圖片來源:https://unsplash.com/photos/F...
作者:周陽

摘要

歌曲評論是雲音樂的核心資產之一,對歌曲評論的內容進行理解,有助於分發好內容,提升使用者體驗。評論內容理解需要解決的核心問題有:一方面,億級的評論內容質量參差不齊,存在大量的水評等各種低質量的評論會淹沒好評論,損害了使用者體驗和評論區氛圍,因此設計評論分類演算法,將評論類別區隔開來,再用推薦策略針對性的進行打壓和最佳化,對社群評論氛圍治理有核心作用;另一方面,優質評論千千萬,目前主要的分發場景是在最新、最熱和推薦Tab,歌曲評論被歌曲天然“隔離”,因此利用NLP技術打破評論是歌曲下的評論這個限制,比如將敘述相同話題的不同歌曲下的評論自動聚集起來形成話題(比如熱點、IP主題),然後再進行分發,能起到吸引使用者看評,提升使用者新鮮感的作用。

1.歌曲評論正負標籤識別

雲音樂歌曲評論是使用者表達感情和觀點的主要形式,既有走心的點評、感人的故事等優質評論,也有讓人不適的水評論、廣告等低俗內容,因此採用文字分類等技術對歌曲評論進行正負向的識別,能在保證內容質量、促進優質內容分發,支援雲音樂評論運營活動等方面起到很大的幫助的作用。我們將歌曲評論分為兩個標籤體系,正向標籤(比如故事等)和負向標籤(比如水評等)。

1.1 業務難點

歌曲評論文字相比其他型別的文字,存在文字短,語意歧義多等特點,對這類評論文字進行正負向分類的主要難點有:

  • 部分類別識別難度較大:比如容易引戰的評論:唱的什麼破歌;對應的反例:唱的什麼破歌,一句不好聽的都沒有。
  • 人工標註樣本難以對齊:打標的正負樣本之間存在一定比例的交叉,產運標準難以未對齊。
  • 標註耗時耗力:正向樣本比例低,文字標也要保證質量和數量,比較耗費時間和人力資源。

1.2 解決方案

針對評論分類的任務難點,主要的最佳化和建模方向有:

  • 主動學習:識別難樣本,矛盾樣本重標,提高標註效率和對齊產運標註。
  • 領域內預訓練 :用音樂社群領域文字進行領域內預訓練,提高模型泛化能力。透過對比學習得到好的評論文字表徵,用於樣本擴充和噪聲樣本篩選。
  • 多工學習:各類別任務共享編碼層,抵抗噪音、緩解過擬合。

1.2.1 繼續預訓練

一般來說,對通用的預訓練模型在下游垂直語料下進行繼續預訓練,能有效提升下游任務效果。我們將雲音樂社群文字進行了整合訓練得到領域內評論預訓練模型,文字資料包括評論、影片標題、村民廣場帖子標題等、中文歌詞,經過清理後得到20億文字資料,預訓練方法採用MLM,得到了社群評論預訓練模型,在下游的任務中,核心指標平均提升1%~2%+。

1.2.2 樣本擴充和去噪

我們採用開源的RoFormer進行對比學習預訓練得到好的評論文字表徵,接下來我們透過計算主子評論的相似度,自動進行正樣本的擴充,還可以直接尋找topN相似的正樣本評論作為正樣本,這可以理解為利用相似度自動進行高質量的資料增強,因為我們擴充的樣本與原正樣本在語意上一致,但是在表達上有區別,所以能有效提高模型的泛化能力,我們在原有幾千的標註資料下,各類別擴充高質量1~5W樣本,最終顯著提升召回率。

1.2.3 多工學習

多工學習透過共享編碼層,能起到正則化,提高泛化能力的作用;負向模型我們採用的是每個類別一個模型,原因是受業務流程決定;在正向評論分類的模型設計中,我們採用了多工的結構,之所以選擇多工的結構除了前述的優點,一部分原因還在於正向標籤本身是個多標籤問題,由於歷史原因,標註資料只有對應類別的正樣本,所以為了更好的最佳化每一個類別,我們選擇共享BERT編碼層,每個類別有自己的正負樣本,同時進行訓練。透過多工學習,我們能針對性的最佳化各個類別的樣本資料,而不影響其他類別,畢竟樣本為王,能較快的達到目標。

多工學習圖

1.2.4 總結

最終經過以上最佳化,正負向各類別模型準召均達90%以上,提升2~3%,我們將負面標籤運用到評論治理後,線上評論潔淨率提升50%以上,此外,我們還沉澱了大量優質評論,未來可用於多場景分發。

2.評論話題聚類

雲音樂的歌曲評論是個億級大寶庫,目前主要透過歌曲下最新、最熱、推薦三個Tab進行分發,然而其實,在不同歌曲下大家也有可能會聊同樣的事情,比如最近的世界盃話題,在很多歌曲下都會有相關的評論,如果我們能透過演算法自動將評論聚集起來形成話題,那麼就可以以新的形式對評論進行售賣分發,從而可能提升業務指標。

2.1 業務難點

話題聚類可以簡單的看著一個聚類問題,然而用聚類問題來解存在的問題是評論文字短、無上下文聯絡,相對於新聞等文章來說,不能直接使用業界常用的聚類演算法;另一個嘗試的方向是我們可以透過站外關鍵詞進行匹配,然而透過我們的實踐發現,站內很少討論站外熱點話題或站內會受站外刺激衍生出評論熱點話題,因此我們需要根據評論的特點設計獨有的話題聚合方式。

聚類業務難點圖

2.2 解決方案

基於評論上下文資訊弱、也很難與站外熱點直接匹配等難點,我們將問題細化,首先確定我們需要什麼話題,對於音樂類文字來說,除了討論歌曲、歌手本身的評論,影綜漫遊是更多的討論形式;另外,熱點發現也是一個方向,如果能自動發現熱點,發現的熱點也能與外部進行關聯上,那這樣的評論話題意義就比較具有時效性,因此我們將話題聚類拆分成子任務。

image

2.2.1 故事類別主題自動生成

雲音樂的評論故事豐富多彩,然而直接使用聚類演算法去得到話題並不可取,因為評論故事描述不像新聞,有明顯的邊界,很難分出合適可用的話題,所以我們不妨提前定義好故事的型別,分為不同型別階段等主題,然後透過標籤的組合自動的生成對應的主題;那麼定義好了標籤,另一個問題又來了,那就是標註,如果再去標註資料來做是比較浪費人力的,對於這類通用的類別,我們完全可以利用開源的Prompt-learning 模型,採用ICL(In-Context Learning)的思想,自動生成對應的標籤。我們使用開源的PromptCLUE模型,自動生成對應的主題標籤,人工評估準確率在90%左右。

故事類別模型圖

2.2.2 IP主題

對於IP主題,我們採取從上而下的做法,在站內我們可直接得到IP下對應的歌曲列表,從而得到對應的評論集合,接下來問題就轉換成了IP與評論相關性的問題。

image

相關性的正樣本我們首先透過IP名、IP人物名去召回了相關評論,然後對相關評論做了一些規則改寫(比如刪除IP名,把IP名隨機替換等),從而提高泛化能力,最後我們採用文字對的輸入形式進行分類微調。

image

2.2.3 熱點話題挖掘

我們定義短時間內某個話題的發評評論突然增多,就會形成熱點話題的形式,那麼核心的問題就是怎麼找到某個話題和怎麼知道某個話題是一個熱點,自動聚類的方式已知走不通,透過調研和參考業內主流方案,我們設計了一種熱詞話題聚合方法。

image

為了方便清楚簡單的闡述,不妨直接用一個例項來進行介紹演算法流程:

image

image

3.總結與展望

雲音樂評論是雲音樂獨有的寶貴的內容資產,在社群工作中,怎麼有效的對評論內容進行分發和售賣,滿足使用者的情感需求,是我們的使命和宗旨。在之前的工作中,我們對歌曲評論進行了類目的劃分和資訊的挖掘,取得了一定的效果和收穫;未來,我們希望更好的利用好評論這個大寶庫,以及整個雲音樂社群寶庫。我們會在更多的方向,比如相關性、評論生成等方向繼續探索,從而期待為業務賦能。

參考資料

[1] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2019: 4171-4186.

[2] Su J, Lu Y, Pan S, et al. Roformer: Enhanced transformer with rotary position embedding[J]. arXiv preprint arXiv:2104.09864, 2021.

[3] Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer[J]. J. Mach. Learn. Res., 2020, 21(140): 1-67.

[4] Bach S H, Sanh V, Yong Z X, et al. Promptsource: An integrated development environment and repository for natural language prompts[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2022: 93-104.

[5] 一種海量社交短文字的熱點話題發現方法
https://cloud.tencent.com/dev...

[6] 後Prompt時代 | NLP統一正規化:預訓練+大規模多工學習
https://www.163.com/dy/articl...

本文釋出自網易雲音樂技術團隊,文章未經授權禁止任何形式的轉載。我們常年招收各類技術崗位,如果你準備換工作,又恰好喜歡雲音樂,那就加入我們 staff.musicrecruit@service.ne...

相關文章