雲音樂輿情平臺建設雲音樂輿情平臺建設

本文作者：王桂澤

本文介紹了雲音樂輿情平臺建設過程中遇到的一些問題和解決方案。

背景介紹

通用輿情分析概念和侷限

通用的輿情分析是指透過收集、整理和分析公眾對某一特定話題或事件的言論、觀點和情感，從而瞭解公眾對該話題或事件的態度和情緒的方法。輿情分析可以透過監測社交媒體、新聞媒體、論壇、部落格等渠道上的資訊來獲取公眾的聲音和反饋。

通用輿情分析的侷限

通用的輿情分析由於資料來源廣泛，內容格式寬泛，僅能基於特定主題進行情感分析或趨勢分析，無法深入挖掘資訊，這意味著企業可能無法獲得關於產品的詳細反饋和建議，無法瞭解消費者對產品的具體需求和改進方向。因此，為了滿足企業內部對產品提升的需求，可能需要採用更專業、更定製化的輿情分析工具和方法，以便更全面、深入地瞭解消費者對產品的態度和期望。

雲音樂輿情平臺建設

1. 資料特徵：資料來源豐富

雲音樂輿情分析的資料來源不僅包括外部公眾渠道上的資訊（比如社交媒體、新聞、部落格等），還有許多內部的資料來源，例如透過APP提交的反饋資料，在歌曲下方的評論資料，或者是透過七魚客服人工反饋的資料等等。這些資料為精細化的輿情分析提供了基礎。

這些資料具有如下特點：

相關性更高：反饋內容都與產品密切相關。
饋更加及時：反饋訊息實時推送，具有高時效性。
更加結構化：除了反饋內容，還包括使用者資訊、裝置資訊、系統資訊等。

2. 分析訴求：精細化分析訴求

雲音樂的輿情分析平臺與通用的輿情分析不同，它需要支援更多維度和更細緻的分析能力，以滿足不同業務和場景的監控需求。

聚類分析

雲音樂擁有多個產品，每個產品都有各自的功能模組，而每個功能模組還可以進一步細分為子功能。可以將這種結構理解為每個產品都有一個功能樹（聚類樹）。聚類分析是指將輿情資料歸類到聚類樹上的某個具體的聚類節點，以便更好地瞭解使用者對不同功能模組的態度和需求，從而針對性地進行改進和最佳化產品。

反饋型別分析

在確定輿情所屬的功能模組之後，還需要進一步分析使用者的反饋型別，不同的反饋型別需要不同的角色關注。包括：

問題反饋：反饋產品或功能問題，開發人員需要關注
產品建議：反饋產品或功能改進建議，產品經理需要關注
使用諮詢：使用者諮詢產品的使用方法或者相關問題，客服需要關注
投訴舉報：反饋產品或功能的不良問題或違規行為，合規人員需要關注

摘要提取

摘要提取是指提取輿情訊息中的要點和關鍵資訊。透過對原始訊息進行提煉，摘要識別可以幫助使用者快速瞭解輿情訊息。另外，可以對大量輿情訊息進行摘要分析，以便發現整體問題和趨勢，並發現新的熱點問題。

情感分析

情感分析類似於傳統的輿情分析，主要是識別使用者情感，包括正向、負向和中性。可以幫助我們瞭解使用者對特定功能的態度和情緒，從而指導產品的改進和最佳化方向。

3. 智慧監控：監控和報警

輿情監控和通用的監控系統存在一些區別：

有些渠道的輿情訊息是定時爬取的，實時性要求不高
輿情訊息量一般都比較大，一般是對整體趨勢、熱點問題的監控
輿情變化趨勢是隨機的，和內部產品和外部環境都有關係，沒有特定的規律

這就要求平臺制定更加智慧的監控策略，當輿情訊息超出預期時，可以透過簡訊、郵件等方式向指定人員傳送報警通知，以便相關人員及時處理。

輿情流轉鏈路

雲音樂輿情平臺更加專注於輿情資料的分析、洞察和監控，透過定義標準化的資料結構快速接入不同來源的資料，下面是核心的輿情流轉鏈路：

輿情流轉鏈路圖

輿情資料來自第三方平臺，包括：反饋平臺，七魚私信平臺、大資料平臺；上報支援包括MQ協議和http協議；輸出原始輿情。

介面卡：原始輿情先經過介面卡處理，標準化各資料來源模型結構，補充裝置、產品等後設資料資訊。輸出標準輿情。

分析器：對標準輿情進行內容分析，根據輿情所屬空間，獲取該空間的聚類樹，並進行聚類分析、情感分析、意圖分析、摘要分析、關鍵詞分析。輸出標準輿情+分析標。

儲存器：將標準輿情和分析標儲存到Elasticsearch，供後續線上查詢和分析。

報警計算器：根據平臺內的報警規則（系統報警+使用者報警），判斷當前輿情是否滿足報警規則並觸發報警。

線上查詢&分析：查詢、趨勢分析、聚合分析等。

輿情大盤：發現熱點事件、各分析維度的排行榜等。

輿情訊息模型

平臺資料來源渠道廣泛，而且每個資料來源都有獨立的屬性，既要支援針對每種渠道的精細化分析，也要支援在全域性視角對多種渠道資料進行整體分析。
為了解決這個問題，平臺設計了通用的輿情訊息模型，在資料接入層和產品展示層，都是面向這個資料模型進行設計，這樣設計的好處有：

在資料接入層，可以快速接入新的資料來源
在產品層，可以複用輿情查詢、分析、報警等功能

輿情訊息模型圖

一條標準化的輿情訊息有下面一些屬性：

資料來源

資料來源是指輿情的資料來源，比如來自App的使用者反饋，來自七魚私信的客服對話等。
平臺會根據不同的資料來源，在產品層做動態的功能展示。比如在輿情查詢頁，會根據資料來源展示相應的屬性，在報警配置頁，會根據資料來源展示相應的篩選條件。

基礎屬性

每種資料來源都有一些基礎屬性。這些屬性是在輿情上報時能夠識別並攜帶上來的，例如使用者資訊、裝置資訊、App資訊、作業系統資訊等。
平臺支援按照所有基礎屬性做篩選、聚合分析，在報警的時候也可以按照所有基礎屬性做篩選，提供了靈活的查詢和監控能力。

分析屬性

除了基礎屬性，分析器（包括平臺內建的分析器和使用者自定義的分析器）還會為輿情新增額外的分析屬性。
不同的分析器會生成不同的分析屬性，例如情感分析器會生成情感屬性，聚類分析器會生成聚類屬性等。
和基礎屬性類似，所有分析屬性都支援篩選、聚合分析。

擴充套件屬性

支援業務方自定義一些擴充套件屬性，以滿足不同業務方差異化的查詢和分析需求。

技術架構

技術架構圖

資料接入：原始輿情資料，有來自反饋平臺、七魚平臺、資料平臺等；協議支援MQ和http協議。

處理層：

介面卡：將各種來源的資料來源整合成標準文件結構，並補充後設資料：如產品、裝置資訊、使用者資訊等。
分析器：對輿情內容進行多維度分析，包括：聚類、情感、意圖、關鍵詞、摘要提取，分析之後會打上分析標

資料管理：資料管理主要是配置處理層的處理規則以及報警規則

分析&視覺化層：提供對分析之後的輿情資料的查詢和分析能力；

監控&報警：對接通用監控和統一報警實現輿情監控；同時提供定時分析和輿情洞察能力，提供輿情大盤和日報功能。

分析引擎

分析引擎負責對採集上來的資料做分析，生成對應的分析屬性。平臺會內建一些分析器，比如情感分析、聚類分析、反饋型別分析等。
分析器的選擇是靈活的，可以根據輿情的資料特徵（資料來源和基礎屬性）和分析需求，選擇相應的一個或多個分析器進行分析處理。
同時，平臺也可以方便地新增自定義的分析器，以滿足不同場景的分析需求。可以透過GPT提示詞開發、SDK外掛、服務接入等多個方式接入自定義的分析器。

分析引擎

內建分析器

平臺內建的分析器都是基於GPT開發的，相比傳統的機器學習、NLP等分析方法，使用GPT分析具有以下優勢。

首先，GPT模型能夠更好地理解和處理自然語言，在語義理解和文字生成方面表現出色，更好地理解語言的上下文和含義，從而析過程中能夠更準確地捕捉到細微的語義差異。
其次，GPT不需要人工標註訓練資料，根據需求調整提示詞後即可立即生效。傳統的機器學習和NLP方法通常需要大量標註資料來訓練模型，需要耗費大量人力、機器和時間成本，無法滿足快速變化的業務需求。
另外，GPT模型還能具有總結歸納、發現新問題的能力，而傳統的機器學習和NLP方法則則無法完成這一任務。

GPT成本最佳化

與傳統的機器學習、NLP等分析方法相比，GPT分析會產生費用，並且隨著分析文字數量的增加，成本也會增長。在某些情況下，成本可能會很高，例如在進行聚類分析時，需要將聚類樹和文字一起輸入給GPT。然而，聚類樹本身（包括節點和節點的描述）可能非常龐大，這將消耗大量的Token。平臺也針對性的做了一些成本最佳化措施：

最佳化1 快取

基於常見文字的分析結果快取
基於文字+聚類樹版本的分析結果快取

最佳化2 精簡聚類樹

聚類分析場景中，聚類樹本身消耗了大量的Token，可以在分析之前透過文字相似度演算法先篩選出"可能歸屬"
的聚類，在分析的時候只需要分析這些聚類即可，這可以大大減少聚類樹的大小，有效地降低分析成本。

線上查詢&聚合分析

輿情訊息經過分析引擎分析後會儲存在 ElasticSearch 資料庫中，以便支援實時地線上查詢和分析。
輿情查詢頁設計如下：

查詢頁

輿情查詢

輿情查詢的主要場景：在限定上下文中，查詢和某個關鍵詞相關的輿情。限定上下文支援全屬性（包括基礎屬性和分析屬性）；關鍵詞也需要支援邏輯運算，萬用字元匹配等能力。

例如：查詢使用者反饋資料來源、iphone端、負面情感的和『黑椒播放器』相關的輿情訊息。

趨勢分析

平臺支援靈活的趨勢分析能力。在給定查詢條件後，您可以檢視資料的變化趨勢，並指定不同的聚合粒度。此外，平臺還提供一些趨勢指標，如平均值、最小值、最大值、P80和P95等資料，以滿足不同的分析場景。

例如：在新建監控和報警時，希望根據歷史的輿情資料趨勢和指標，制定合理的報警閾值。

聚合分析

平臺支援全屬性的聚合分析能力。在給定查詢條件後，平臺會計算所有『可聚合維度』的分佈情況，給出每個維度的不同取值的訊息總數和佔比。『可聚合維度』是根據當前搜尋的資料來源動態識別的，不同的資料來源可以配置不同的聚合分析維度。

例如：查詢某個時間範圍內的Top聚類問題，或者分析和某個主題相關的所有輿情訊息的情感分佈、App版本分佈等。

監控和報警

平臺支援靈活的監控和報警策略。一條監控或報警規則包括3個部分：

1. 資料篩選

資料篩選指定了希望監控的輿情訊息範圍，支援全屬性（基礎屬性和分析屬性）的篩選，每個屬性支援指定多個值。

例如：指定監控範圍為：使用者反饋資料來源中，iphone端、改版相關、負面輿情。

資料篩選

2. 報警條件

平臺支援常見的報警條件，例如檢測週期、每次檢測的時間範圍，以及按照閾值、環比增長觸發等。同時，平臺對閾值的設定經過最佳化，可以根據歷史資料的趨勢指標來指定動態閾值。當趨勢發生變化時，報警閾值也會相應地動態改變，以確保閾值始終與當前趨勢匹配，從而更準確地反映問題。

報警條件

3. 報警接收

當滿足報警條件後，會通知相關的接收方。支援指定接收人、IM群組，傳送方式也支援IM、簡訊、電話、郵件等。

智慧報警

輿情報警具有一定的特殊性，首先輿情訊息本身資料量較大，資料有一定的滯後性，通常會關注整體的變化趨勢，而且趨勢會隨著產品功能迭代和外部環境發生較大的變動。
在這種場景下，報警的監控策略和閾值設定就難以確定，如果設定固定的報警閾值，很容易出現誤報或者漏報的情況。如果都是靠人工定期維護報警，成本又會很高，而且及時性和有效性也難以保障。

針對這個問題，平臺提供了一種智慧報警的解決方案。平臺會根據不同的監控場景自動建立報警規則，報警閾值是根據歷史資料動態計算並定時重新整理的。

例如，在聚類問題反饋類監控中，希望監控每個聚類的問題反饋情況，平臺會為每個聚類建立一個智慧報警規則，監控與該聚類相關且反饋型別是問題反饋的輿情資料。
同時根據在該資料篩選條件下的歷史的輿情趨勢，動態計算閾值和環比增長值，以確保閾值和環比值與當前輿情趨勢相匹配。為了保證閾值的時效性，平臺還會定時重新整理這個閾值。
這樣可以有效保證報警的有效性和時效性，同時不需要人工參與，大大降低了人工成本。

智慧報警流程

總結

雲音樂輿情平臺具有以下特點：多資料來源、多維度的資料特徵；豐富、可擴充套件的分析器；靈活的線上查詢和聚合分析能力；以及智慧的監控和報警能力。能夠滿足複雜場景的輿情分析、查詢、監控和報警需求。

後續的發展方向是結合GPT，進一步挖掘資料背後的價值，例如提供智慧日報或週報功能，對週期內的輿情資料進行提煉、總結，並給出分析報告，以減少人工分析的成本。

最後

更多崗位，可進入網易招聘官網檢視 https://hr.163.com/

雲音樂輿情平臺建設雲音樂輿情平臺建設

背景介紹

通用輿情分析概念和侷限

雲音樂輿情平臺建設

1. 資料特徵：資料來源豐富

2. 分析訴求：精細化分析訴求

3. 智慧監控：監控和報警

輿情流轉鏈路

輿情訊息模型

資料來源

基礎屬性

分析屬性

擴充套件屬性

技術架構

分析引擎

線上查詢&聚合分析

監控和報警

總結

最後

相關文章