0. 前言
移動輿情分析 MMA(Mobile Media Analysis)作為 mPaaS 對移動端產品覆蓋上是一個有力的補充,在需求、釋出、分析、運營等階段都發揮著不可或缺的作用。
• 需求階段,輔助市場調查、競品分析、產品決策。
• 釋出階段,監控新版本使用者反饋,第一時間瞭解使用者的新版使用感受,收集需求;收集使用者使用bug。
• 分析階段,通過平臺提供的指標趨勢、事件分析功能,進行產品的監控和分析。
• 運營階段,提供運營活動的傳播效果和運營傾向監控。
複製程式碼
結合 mPaaS 的其他元件,能夠更好地完成產品開發。下圖為移動輿情分析(MMA)與 mPaaS 平臺提供的功能在產品開發生命週期中發揮的作用示意圖:
本文將從以下三個方面幫助大家瞭解移動輿情分析(MMA):
• MMA 是如何誕生的
• 現階段 MMA 都提供了哪些功能
• MMA 的技術架構是怎樣的
複製程式碼
1. 背景介紹:輿情監控的必要性
隨著網際網路的迅速發展,網際網路已經成為了人們傳播和獲取各種資訊的主要手段,每天都有大量輿情通過網際網路進行傳播,發酵,甚至構成輿情災難。
網路輿情具備以下幾個特徵:
1、資訊量大,資料分析困難
2、傳播速度快,人為監控難以及時發現、遏制
3、個人觀點情緒化,容易一邊倒,引發公信力危機
2. 移動輿情分析(MMA)的由來
移動輿情分析(MMA)源於支付寶內部的 Anteye 輿情平臺,對內服務了支付寶、螞蟻財富、口碑、網上銀行、AlipayHK 等重點產品在內的 100 多條業務線,及上千名阿里小二。
支付寶作為國民應用,每天在 App 內進行意見反饋的使用者上萬個,這上萬條應用內反饋,包含了使用者使用時遇到的問題,對體驗的吐槽,以及使用者辛苦寫下的對產品的建議,為了讓這些有價值的資訊得到充分重視,更好地服務使用者,所以誕生了 Anteye 輿情平臺。
Anteye 致力於將各類反饋資訊正確地分發給對應的角色,比如將產品問題按業務線分發給各業務 Owner,將有價值的使用者體驗的吐槽和產品建議分發給產品經理,將安全相關資訊分發給安全同學等,並支援在平臺上進行反饋的處理,處理結果可以選擇性的回覆給提交反饋的使用者。對應用內反饋資料的分發、處理,拉近了使用者和產品開發人員的距離,幫助改進產品,提升使用者體驗。
使用者除了在 App 內提交反饋,還可能在各大應用市場對 App 進行評分,發表使用感受。所以後來接入了各大應用市場評論的資料,用於監控產品各版本在應用市場(部分應用市場等同於手機廠商)的評分表現,情感傾向和吐槽的話題。
後來 Anteye 增加了外部媒體輿情的採集、分析、監控能力。Anteye 關注的外部媒體主要分為三部分資料來源:微博、新聞媒體文章、微信公眾號文章。對外部媒體輿情資料的分析,重點集中在負面事件的預警,以及重點事件的分析(趨勢、情感、傳播路徑等)。預警機制幫助及時發現潛在輿情風險,爭取到寶貴的處理時間,重點事件分析幫助瞭解事件從萌發到爆發的過程和重點渠道、鏈路。
MMA 將支付寶客戶端反饋元件和 Anteye 輿情平臺兩部分融合成一個元件,提供了完整的資料採集、分析功能。
3. 移動輿情分析(MMA)平臺功能介紹
MMA(Mobile Media Analysis)通過採集應用內、應用市場反饋及外部媒體等內容,經過機器學習、自然語言處理等大資料技術,為企業的產品迭代升級、運營、營銷、公關提供實時、有效的“輿情監控-分析-預警-處理”的閉環能力,幫助企業發現並追蹤產品問題,收集產品建議,危機公關,輔助市場調查、產品營銷與競爭分析。
a、資料來源和分析
輿情分析平臺 MMA 作為螞蟻金服移動開發平臺 mPaaS 的元件之一,致力於幫助使用者開發、運營出更好的移動端產品,所以主要解決的問題包含了兩個方面:
1、來自使用者的反饋分析:
-
資料分類:
- App 使用者在客戶端內的直接反饋
- App 使用者在各主流應用市場對 App 的評價
-
資料特點分析:
- 來自使用者的反饋,主要為“產品 bug 上報、產品體驗問題、產品優化建議和單純的吐槽”。通過深度分析這部分資料,可以幫助產品及時解決 bug,改善產品體驗,瞭解使用者痛點和需求,產品 bug 和體驗解決不及時可能引發使用者輿論發酵風險。
2、來自社會輿論的反饋分析:
-
資料分類:
- 新聞資訊資料
- 微信公眾號輿論資料
- 微博資料
-
資料特點分析:
- 社會輿論一般不針對 App 的具體功能,而是針對產品整體、所在企業和特定事件。由於這社會輿論資料量大,傳播速度快,需要能及時預警,進行處理。
b、價值
下圖為 MMA 主要針對的業務場景:
c、優勢
1、相較一般輿情平臺,支援應用內反饋、應用市場評價這兩個和 App 密切相關的資料來源
2、支援“輿情監控->分析->預警->處理”的完整閉環
3、支援公有云部署和私有云部署雙重部署方式
4、歷經多年打磨的適用於輿情分析的自然語言處理技術
3. 系統架構
mPaaS 移動輿情分析 (MMA)系統總共包含 3 個部分:
1、輿情分析平臺:對資料進行分析,整合後進行資料顯示、訂閱和預警
2、客戶端反饋元件:提供使用者在客戶端提交使用者反饋的功能
3、爬蟲系統:爬取應用市場、微博、新聞媒體等資料
下圖為三個模組的關係圖:
下圖為系統整體的功能模組圖:
a、輿情分析平臺
輿情分析平臺為 MMA 的核心元件,將客戶端反饋元件和爬蟲系統採集來的資料進行儲存、清洗、演算法打標、模型計算、資料整合分析後,將有效的資訊展示給使用者。整個流程如下圖所示:
- 資料儲存模組
輿情分析平臺將採集來的資料持久化到 Mysql 和 Mongo 資料庫中,通過資料清洗模組進行資料的轉換、垃圾過濾等清洗工作,然後轉存入 Elasticsearch,以滿足高效查詢的要求。
- 演算法服務模組
演算法服務主要對資料進行自然語言處理, 對資料進行更貼合人類使用習慣的打標,方便資料分析、統計。
首先通過垃圾過濾技術排除無效資料,然後根據資料的各自特點分別進行處理。對於應用內反饋和應用市場評論資料,平臺基於其文字短、表述意圖單一的特點,使用新話題發現技術,將資料按照話題的維度進行分類,使用短文字情感演算法進行情感標註。對於外部媒體輿情,平臺基於其文字較長、表述方法多樣的特點,使用相似度計算和文字聚類等演算法,將同一事件的相關輿情篩選出來,同時使用長文字情感演算法進行情感標註。
簡單羅列上述提到的相關技術採用的基礎演算法:
- 新話題發現:通過 CRF 和語法樹構建依賴分析
- 相似度計算:採用餘弦、編輯、Simhash 等多種特徵的相似度演算法
- 垃圾過濾:採用 SVM 向量機、樸素貝葉斯的垃圾分類演算法
- 短文字情感:基於情感詞典和語義解析的情感分類演算法
- 長文字情感:基於 Tensorflow 的 LSTM 情感分類演算法
- 文字聚類:通過語義距離矩陣進行層次聚類
以上相關演算法,如感興趣可自行查閱相關資料,MMA 雖在通用演算法基礎上做了特殊化處理,但基本原理不變。下面我們主要介紹下短文字情感和**長文字情感****演算法:
短文字一般表述的核心主題只有一個,所以只需要抓住核心詞和核心情感詞進行情感判斷即可。MMA 平臺的短文字情感演算法通過構建情感極性詞典(包含積極、消極、中性等情感詞),結合語句的否定、反問等語義解析,形成情感公式去判斷文字的情感偏向。該過程的難點在於情感詞典需足夠豐富、準確,及情感公式中權重係數的選擇。
長文字在表達方式、中心思想上可能都比較複雜,核心詞可能是多個,每個核心詞對應的情感偏向也不一樣,所以短文字情感演算法不適用。MMA 平臺使用基於 Tensorflow 深度學習框架的 LSTM(Long short-term memory)長短期記憶神經網路,訓練大量的外部媒體輿情資訊,進行情感的預測。首先進行資料清洗,去除垃圾文字和文字中的特殊符號、表情符號等,然後通過 Word2vector 模型轉換為詞向量,再通過截斷或者補全的方式轉換為等長的句子序列作為 LSTM 的輸入進行訓練,最後使用訓練後的模型進行情感預測。該過程的難點在於資料清洗、模型的選取和模型調參,這裡不再展開討論。
- 資料計算模組
資料計算模組通過使用自定義的評分模型完成對單條資料的評分度量,通過自定義的熱度模型實現對單個事件的熱度度量,通過預置的規則或者使用者定義的預警規則實現輿情預警。
- 資料展示模組
輿情分析平臺按照資料型別進行指標展示,其中應用內反饋和應用市場評論資料,主要按照話題、情感、數量等維度進行趨勢、分佈分析;而外部媒體輿情以事件為切入點,分析該事件的熱度、情感、重點原聲、傳播等。
b、客戶端反饋元件
客戶端反饋元件自帶了一套集反饋收集、展示、處理完整流程的反饋模組,以便於使用者從零開始快速構建應用內反饋的輿情分析體系。
如果客戶 App 已經自帶了反饋模組,MMA 也提供了介面來接收現有反饋模組收集的資料,從而快速使用 MMA 的輿情分析功能。
c、內容採集系統
內容採集系統採用分散式架構,將各重要功能服務化,提高系統的穩定性、擴充套件性和吞吐率。使用者只需要進行簡單的配置,即可完成資料採集功能。
排程中心會定時讀取規則庫,將需要採集的配置和微博更新的配置放入訊息中心 MQ 中,採集服務和解析儲存服務會持續監聽 MQ,各自取出對應任務進行處理,最後將結果存入資料庫中。監控中心負責整個系統的穩定性監控,採集資料的變化監控和新規則的配置。
採集服務支援基於 HttpClient 的同步請求獲取和基於 Phantomjs 的 HTML 頁面非同步渲染結果獲取,且為了應對反採集策略,支援 IP 代理,賬號、Cookie 的切換。該服務對所在伺服器的頻寬要求較高。 採集服務和解析儲存服務都支援橫向擴充套件,可以通過簡單的新增機器滿足業務快速增長的需求。
4. 總結與展望
本文重點講解了 mPaaS 移動輿情分析(MMA)在“輿情分析平臺”、“客戶端反饋元件”、“內容採集系統”三個方面的具體架構設計。同時 MMA 也在開發更多能夠幫助使用者更快發現、解決問題的功能,比如當前在研發中的基於日誌分析的輿情問題快速定位功能:使用者在應用內做了反饋,如果平臺判定為是系統 bug,則會觸發日誌管理平臺拉取使用者裝置日誌,分析反饋上報期間的日誌,並結合分析使用者當時的網路狀況、手機狀況,快速給出該系統 bug 的可能原因。
在產品整合上,移動輿情分析產品同樣支援和 mPaaS 產品體系以及企業內部系統實現深度打通與整合。
首先,輿情產品可以直接和 mPaaS 體系中的研發協同平臺對接,由後者缺陷管理模組處理輿情問題並同步結果給輿情平臺。其次,輿情產品還可以和智慧投放產品結合,在投放前,通過輿情分析產品分析目標受眾,使投放過程更具有針對性,在投放後,又可通過輿情產品監控活動在全網的傳播情況。類似地,輿情分析也可以和企業內部的辦公系統、營銷系統等實現打通。
如果你對 mPaaS 移動輿情分析(MMA)感興趣,歡迎進一步交流。
往期閱讀
《螞蟻金服 mPaaS 服務端核心元件體系概述:移動 API 閘道器 MGS》
《螞蟻金服 mPaaS 服務端核心元件:億級併發下的移動端到端網路接入架構解析》
《mPaaS 服務端核心元件:訊息推送 MPS 架構及流程設計》
關注我們公眾號,獲得第一手 mPaaS 技術實踐乾貨
釘釘群:通過釘釘搜尋群號“23124039”
期待你的加入~