本文作者:王桂澤
本文介紹了雲音樂輿情平臺建設過程中遇到的一些問題和解決方案。
背景介紹
通用輿情分析概念和侷限
通用的輿情分析是指透過收集、整理和分析公眾對某一特定話題或事件的言論、觀點和情感,從而瞭解公眾對該話題或事件的態度和情緒的方法。輿情分析可以透過監測社交媒體、新聞媒體、論壇、部落格等渠道上的資訊來獲取公眾的聲音和反饋。
通用輿情分析的侷限
通用的輿情分析由於資料來源廣泛,內容格式寬泛,僅能基於特定主題進行情感分析或趨勢分析,無法深入挖掘資訊,這意味著企業可能無法獲得關於產品的詳細反饋和建議,無法瞭解消費者對產品的具體需求和改進方向。因此,為了滿足企業內部對產品提升的需求,可能需要採用更專業、更定製化的輿情分析工具和方法,以便更全面、深入地瞭解消費者對產品的態度和期望。
雲音樂輿情平臺建設
1. 資料特徵:資料來源豐富
雲音樂輿情分析的資料來源不僅包括外部公眾渠道上的資訊(比如社交媒體、新聞、部落格等),還有許多內部的資料來源,例如透過APP提交的反饋資料,在歌曲下方的評論資料,或者是透過七魚客服人工反饋的資料等等。這些資料為精細化的輿情分析提供了基礎。
這些資料具有如下特點:
- 相關性更高:反饋內容都與產品密切相關。
- 饋更加及時:反饋訊息實時推送,具有高時效性。
- 更加結構化:除了反饋內容,還包括使用者資訊、裝置資訊、系統資訊等。
2. 分析訴求:精細化分析訴求
雲音樂的輿情分析平臺與通用的輿情分析不同,它需要支援更多維度和更細緻的分析能力,以滿足不同業務和場景的監控需求。
聚類分析
雲音樂擁有多個產品,每個產品都有各自的功能模組,而每個功能模組還可以進一步細分為子功能。可以將這種結構理解為每個產品都有一個功能樹(聚類樹)。聚類分析是指將輿情資料歸類到聚類樹上的某個具體的聚類節點,以便更好地瞭解使用者對不同功能模組的態度和需求,從而針對性地進行改進和最佳化產品。
反饋型別分析
在確定輿情所屬的功能模組之後,還需要進一步分析使用者的反饋型別,不同的反饋型別需要不同的角色關注。包括:
- 問題反饋:反饋產品或功能問題,開發人員需要關注
- 產品建議:反饋產品或功能改進建議,產品經理需要關注
- 使用諮詢:使用者諮詢產品的使用方法或者相關問題,客服需要關注
- 投訴舉報:反饋產品或功能的不良問題或違規行為,合規人員需要關注
摘要提取
摘要提取是指提取輿情訊息中的要點和關鍵資訊。透過對原始訊息進行提煉,摘要識別可以幫助使用者快速瞭解輿情訊息。另外,可以對大量輿情訊息進行摘要分析,以便發現整體問題和趨勢,並發現新的熱點問題。
情感分析
情感分析類似於傳統的輿情分析,主要是識別使用者情感,包括正向、負向和中性。可以幫助我們瞭解使用者對特定功能的態度和情緒,從而指導產品的改進和最佳化方向。
3. 智慧監控:監控和報警
輿情監控和通用的監控系統存在一些區別:
- 有些渠道的輿情訊息是定時爬取的,實時性要求不高
- 輿情訊息量一般都比較大,一般是對整體趨勢、熱點問題的監控
- 輿情變化趨勢是隨機的,和內部產品和外部環境都有關係,沒有特定的規律
這就要求平臺制定更加智慧的監控策略,當輿情訊息超出預期時,可以透過簡訊、郵件等方式向指定人員傳送報警通知,以便相關人員及時處理。
輿情流轉鏈路
雲音樂輿情平臺更加專注於輿情資料的分析、洞察和監控,透過定義標準化的資料結構快速接入不同來源的資料,下面是核心的輿情流轉鏈路:
輿情資料來自第三方平臺,包括:反饋平臺,七魚私信平臺、大資料平臺;上報支援包括MQ協議和http協議;輸出原始輿情。
介面卡:原始輿情先經過介面卡處理,標準化各資料來源模型結構,補充裝置、產品等後設資料資訊。輸出標準輿情。
分析器:對標準輿情進行內容分析,根據輿情所屬空間,獲取該空間的聚類樹,並進行聚類分析、情感分析、意圖分析、摘要分析、關鍵詞分析。輸出標準輿情+分析標。
儲存器:將標準輿情和分析標儲存到Elasticsearch,供後續線上查詢和分析。
報警計算器:根據平臺內的報警規則(系統報警+使用者報警),判斷當前輿情是否滿足報警規則並觸發報警。
線上查詢&分析:查詢、趨勢分析、聚合分析等。
輿情大盤:發現熱點事件、各分析維度的排行榜等。
輿情訊息模型
平臺資料來源渠道廣泛,而且每個資料來源都有獨立的屬性,既要支援針對每種渠道的精細化分析,也要支援在全域性視角對多種渠道資料進行整體分析。
為了解決這個問題,平臺設計了通用的輿情訊息模型,在資料接入層和產品展示層,都是面向這個資料模型進行設計,這樣設計的好處有:
- 在資料接入層,可以快速接入新的資料來源
- 在產品層,可以複用輿情查詢、分析、報警等功能
一條標準化的輿情訊息有下面一些屬性:
資料來源
資料來源是指輿情的資料來源,比如來自App的使用者反饋,來自七魚私信的客服對話等。
平臺會根據不同的資料來源,在產品層做動態的功能展示。比如在輿情查詢頁,會根據資料來源展示相應的屬性,在報警配置頁,會根據資料來源展示相應的篩選條件。
基礎屬性
每種資料來源都有一些基礎屬性。這些屬性是在輿情上報時能夠識別並攜帶上來的,例如使用者資訊、裝置資訊、App資訊、作業系統資訊等。
平臺支援按照所有基礎屬性做篩選、聚合分析,在報警的時候也可以按照所有基礎屬性做篩選,提供了靈活的查詢和監控能力。
分析屬性
除了基礎屬性,分析器(包括平臺內建的分析器和使用者自定義的分析器)還會為輿情新增額外的分析屬性。
不同的分析器會生成不同的分析屬性,例如情感分析器會生成情感屬性,聚類分析器會生成聚類屬性等。
和基礎屬性類似,所有分析屬性都支援篩選、聚合分析。
擴充套件屬性
支援業務方自定義一些擴充套件屬性,以滿足不同業務方差異化的查詢和分析需求。
技術架構
資料接入:原始輿情資料,有來自反饋平臺、七魚平臺、資料平臺等;協議支援MQ和http協議。
處理層:
- 介面卡:將各種來源的資料來源整合成標準文件結構,並補充後設資料:如產品、裝置資訊、使用者資訊等。
- 分析器:對輿情內容進行多維度分析,包括:聚類、情感、意圖、關鍵詞、摘要提取,分析之後會打上分析標
資料管理:資料管理主要是配置處理層的處理規則以及報警規則
分析&視覺化層:提供對分析之後的輿情資料的查詢和分析能力;
監控&報警:對接通用監控和統一報警實現輿情監控;同時提供定時分析和輿情洞察能力,提供輿情大盤和日報功能。
分析引擎
分析引擎負責對採集上來的資料做分析,生成對應的分析屬性。 平臺會內建一些分析器,比如情感分析、聚類分析、反饋型別分析等。
分析器的選擇是靈活的,可以根據輿情的資料特徵(資料來源和基礎屬性)和分析需求,選擇相應的一個或多個分析器進行分析處理。
同時,平臺也可以方便地新增自定義的分析器,以滿足不同場景的分析需求。可以透過GPT提示詞開發、SDK外掛、服務接入等多個方式接入自定義的分析器。
內建分析器
平臺內建的分析器都是基於GPT開發的,相比傳統的機器學習、NLP等分析方法,使用GPT分析具有以下優勢。
- 首先,GPT模型能夠更好地理解和處理自然語言,在語義理解和文字生成方面表現出色,更好地理解語言的上下文和含義,從而析過程中能夠更準確地捕捉到細微的語義差異。
- 其次,GPT不需要人工標註訓練資料,根據需求調整提示詞後即可立即生效。傳統的機器學習和NLP方法通常需要大量標註資料來訓練模型,需要耗費大量人力、機器和時間成本,無法滿足快速變化的業務需求。
- 另外,GPT模型還能具有總結歸納、發現新問題的能力,而傳統的機器學習和NLP方法則則無法完成這一任務。
GPT成本最佳化
與傳統的機器學習、NLP等分析方法相比,GPT分析會產生費用,並且隨著分析文字數量的增加,成本也會增長。在某些情況下,成本可能會很高,例如在進行聚類分析時,需要將聚類樹和文字一起輸入給GPT。然而,聚類樹本身(包括節點和節點的描述)可能非常龐大,這將消耗大量的Token。平臺也針對性的做了一些成本最佳化措施:
最佳化1 快取
- 基於常見文字的分析結果快取
- 基於文字+聚類樹版本的分析結果快取
最佳化2 精簡聚類樹
聚類分析場景中,聚類樹本身消耗了大量的Token,可以在分析之前透過文字相似度演算法先篩選出"可能歸屬"
的聚類,在分析的時候只需要分析這些聚類即可,這可以大大減少聚類樹的大小, 有效地降低分析成本。
線上查詢&聚合分析
輿情訊息經過分析引擎分析後會儲存在 ElasticSearch 資料庫中,以便支援實時地線上查詢和分析。
輿情查詢頁設計如下:
輿情查詢
輿情查詢的主要場景:在限定上下文中,查詢和某個關鍵詞相關的輿情。限定上下文支援全屬性(包括基礎屬性和分析屬性);關鍵詞也需要支援邏輯運算,萬用字元匹配等能力。
例如:查詢使用者反饋資料來源、iphone端、負面情感的和『黑椒播放器』相關的輿情訊息。
趨勢分析
平臺支援靈活的趨勢分析能力。在給定查詢條件後,您可以檢視資料的變化趨勢,並指定不同的聚合粒度。此外,平臺還提供一些趨勢指標,如平均值、最小值、最大值、P80和P95等資料,以滿足不同的分析場景。
例如:在新建監控和報警時,希望根據歷史的輿情資料趨勢和指標,制定合理的報警閾值。
聚合分析
平臺支援全屬性的聚合分析能力。在給定查詢條件後,平臺會計算所有『可聚合維度』的分佈情況,給出每個維度的不同取值的訊息總數和佔比。『可聚合維度』是根據當前搜尋的資料來源動態識別的,不同的資料來源可以配置不同的聚合分析維度。
例如:查詢某個時間範圍內的Top聚類問題,或者分析和某個主題相關的所有輿情訊息的情感分佈、App版本分佈等。
監控和報警
平臺支援靈活的監控和報警策略。一條監控或報警規則包括3個部分:
1. 資料篩選
資料篩選指定了希望監控的輿情訊息範圍,支援全屬性(基礎屬性和分析屬性)的篩選,每個屬性支援指定多個值。
例如:指定監控範圍為:使用者反饋資料來源中,iphone端、改版相關、負面輿情。
2. 報警條件
平臺支援常見的報警條件,例如檢測週期、每次檢測的時間範圍,以及按照閾值、環比增長觸發等。同時,平臺對閾值的設定經過最佳化,可以根據歷史資料的趨勢指標來指定動態閾值。當趨勢發生變化時,報警閾值也會相應地動態改變,以確保閾值始終與當前趨勢匹配,從而更準確地反映問題。
3. 報警接收
當滿足報警條件後,會通知相關的接收方。支援指定接收人、IM群組,傳送方式也支援IM、簡訊、電話、郵件等。
智慧報警
輿情報警具有一定的特殊性,首先輿情訊息本身資料量較大,資料有一定的滯後性,通常會關注整體的變化趨勢,而且趨勢會隨著產品功能迭代和外部環境發生較大的變動。
在這種場景下,報警的監控策略和閾值設定就難以確定,如果設定固定的報警閾值,很容易出現誤報或者漏報的情況。如果都是靠人工定期維護報警,成本又會很高,而且及時性和有效性也難以保障。
針對這個問題,平臺提供了一種智慧報警的解決方案。平臺會根據不同的監控場景自動建立報警規則,報警閾值是根據歷史資料動態計算並定時重新整理的。
例如,在聚類問題反饋類監控中,希望監控每個聚類的問題反饋情況,平臺會為每個聚類建立一個智慧報警規則,監控與該聚類相關且反饋型別是問題反饋的輿情資料。
同時根據在該資料篩選條件下的歷史的輿情趨勢,動態計算閾值和環比增長值,以確保閾值和環比值與當前輿情趨勢相匹配。為了保證閾值的時效性,平臺還會定時重新整理這個閾值。
這樣可以有效保證報警的有效性和時效性,同時不需要人工參與,大大降低了人工成本。
總結
雲音樂輿情平臺具有以下特點:多資料來源、多維度的資料特徵;豐富、可擴充套件的分析器;靈活的線上查詢和聚合分析能力;以及智慧的監控和報警能力。能夠滿足複雜場景的輿情分析、查詢、監控和報警需求。
後續的發展方向是結合GPT,進一步挖掘資料背後的價值,例如提供智慧日報或週報功能,對週期內的輿情資料進行提煉、總結,並給出分析報告,以減少人工分析的成本。
最後
更多崗位,可進入網易招聘官網檢視 https://hr.163.com/