大資料時代,各家公司都在收集更多自由文字格式的非結構化資料,內容從客服對話到市場研究調查均有涵蓋。儘管這些使用者反饋(VOM)包含寶貴的資訊,但通常來說,如何大規模對這些資料進行最有效的分析還是比較模糊的。

找出使用者反饋資料的主題非常關鍵,不僅能讓我們瞭解使用者的擔憂及痛點,還能通過總結洞見以作出更好的商業決策,改進產品及使用者體驗。其中一些典型的案例包括:

  • 在調查淨推薦值(NPS)的市場研究中,我們希望瞭解使用者向他人推薦品牌或網站的原因,即為公司提高NPS分數的動力是什麼。在NPS調查中,類似“構建網路”這樣的主題給了我們提示:使用者喜歡能作為有效工具,構建自己社交網路的網站。
  • 我們希望能從應用的評論中瞭解使用者的應用體驗,並用以修復問題、改善產品。例如,評論中關於“應用崩潰”的主題表明應用存在著潛在缺陷。
  • 對於客戶服務(CS)郵件來說,最主要的目的是找出報告最頻繁的問題。例如,在客戶服務郵件中“合併帳號”這個詞出現的次數讓我們知道,到底有多少使用者擁有多個個人帳號與資料,以及相應問題的嚴重性。所有這些主題都會按照主體模式及相關操作分類。

文字挖掘又被稱為文字分析,指的是運用高階資料探勘與自然語言處理技術對非結構化的文字進行計算研究,這項技術在處理上述任務時有很大用處。文字挖掘的關鍵一般包括但不限於:主題挖掘、文字分類、文字聚類以及分類構建。

文字分析這個市場中有很多公司競爭(見下圖),目前有很多可用的供應商及開源工具。既然選擇有這麼多,為什麼我們還要構建自己的解決方案呢?主要的原因在於,我們希望這個解決方案具備可擴充套件性、靈活性與專注性:首先,由於我們要處理的是來自多個渠道、不同性質的大量資料,因此理想的解決方案應當是可擴充套件的;其次,由於調研和整合了不同的文字挖掘功能,我們還希望系統具備靈活性;最後,我們希望能專注於某一部分的資料,比如與LinkedIn相關的資料。在決定使用哪一種文字分析平臺時,還需要考慮的其它重要因素包括時間、開發成本以及維護費用。

1473429501-1796-resources

圖一:文字分析供應商與開源工具

在LinkedIn,我們建立了Voices這個文字分析平臺,通過它訪問關於我們網站和主要產品的使用者反饋非常簡單。Voices聚合了來自內部(比如LinkedIn釋出的資訊、客戶支援案例、NPS調查結果)及外部(比如來自Facebook、Twitter、新聞、論壇及部落格等社交媒體)資料來源的非結構化文字,將來自各種渠道的結構化客戶資料及非結構化文字資料錄入HDFS,再使用一套文字挖掘功能來處理。通過Voices,我們可以從各個角度總結出相關的見解,比如價值定位、產品、情感、見解趨勢還有很多其它的用例。

我們將內部的資料來源與從外部(從社交平臺、線上新聞、部落格、論壇等公開資料中所提取的相關資訊)獲得的資料進行整合。其它資料屬性,比如地理位置、情緒、使用者細分等方便使用者進行商業方面的深挖,Voices中資料還包括LinkedIn在蘋果商店及Google Play獲得的評論。

在Voices中的文字挖掘

文字挖掘是針對非結構化文字進行計算研究,以理解使用者反饋,併為更好地作出商業決策獲得洞見。如果讓人類執行,需要數年、數百萬量級的文字閱讀量,對於任何公司來說都是無法等待的。因此,我們亟需能對大量的非結構化文字執行文字挖掘的有效、高效的功能。

在Voices,有三個關鍵的文字挖掘元件,見圖二:

  • 相關性的解決方案
  • 分類引擎
  • 主題挖掘

1473429502-2367-resources

圖二:Voices的文字挖掘架構

相關性的解決方案

在社交媒體中處理大量非結構化文字時,找出與LinkedIn、與我們的產品及服務相關的內容是非常關鍵的,而且這一步必須在其它分析開始前完成。在Voices,我們使用機器學習的方式來解決相關問題。基於曾經見過的案例——無論是否與LinkedIn相關,我們建立起模型,然後將學習到的模型應用到新的文件中,以預測這些文件各自的相關程度。

分類引擎

為了通過機器學習來完成相關性判斷,我們開發了一個通用的文字分類框架,通過樣例文件,使用預定義分類的已知標籤(比如已知產品的客戶服務表單列表,或者帶有情感標籤的應用評論列表)構建了支援向量機(SVM)模型,這個模型可以用於預測新文字文件。這個框架還有很多其它的應用,比如情感分析、產品分類以及價值定位分類。

主題挖掘

與文字分類引擎(以及相關性解決方案)不同,另一個關鍵的文字挖掘元件是主題挖掘。主題挖掘也被稱為主題建模或主題識別,是一種從非結構化文字中提取最重要概念以及相關行為的技術。我們的主題挖掘系統是由多個自然語言處理(NLP)模組構成的管道,包括:1)詞性(POS)標註;2)詞性模式匹配;3)主題刪減;4)主題排序。這個多模組管道的核心概念就是,任何一個模組單獨運用時,所產生的主題混亂且不準確。

我們的方法在諸如論壇討論、小組更新、部落格等自然語言中,針對使用者反饋資料的效果良好。系統產生的主題可用於:1)無需人工檢視內容,便可理解並使用使用者反饋中的資訊;2)對使用者投訴進行分類或者分組,以供客服代表進一步處理;3)識別主題相關的情緒;4)方便搜尋使用者投訴;5)為與主題相關的內容產生結論;6)用以實現文字分類功能,以減少功能,並提高效率。

討論

在開發Voices系統時,我們獲得了很多經驗,希望與社群分享。首先,在進行文字挖掘時,我們時常要面對抉擇,包括選擇供應商產品、開源工具以及內部解決方案。不存在萬能的解決方案,權衡關鍵的因素——比如質量、效率、靈活度、可擴充套件性、成本(包括開發成本與維護成本)非常重要。

其次,我們需要在質量與效率之間作出權衡,例如LDA是一個現成的主題建模方法,但計算花費過高、效率較低。在實踐中,還有更多次優的方法在效率上和擴充套件性上都更勝一籌。在這些方面有所提高,同時也不會太損失質量的方案在實踐中更受歡迎。

再次,如有可能,我們總是儘可能利用類似Hadoop及Spark這樣的大資料基礎架構來提供真正可縮放的文字挖掘功能。

最後但同樣重要的是視覺化,視覺化對於顯示文字挖掘的結果也很重要。例如,主題的顯示有許多選項,包括關鍵字雲或主題餅狀圖等。而最佳的視覺化解決方案可以快速有效地闡述結果,方便決策制定,這對於產品及使用者體驗的改進都很有好處。

總結

我們構建了一個可擴充套件的文字分析平臺,通過高階機器學習與自然語言處理技術,實現了創新性的文字挖掘解決方案。通過這樣的平臺,我們得以聆聽社群的反饋意見,為更好的商業決策給出可執行的見解,最終為使用者帶來改善。

英文: Voices: a Text Analytics Platform for Understanding Member Feedback
譯者: 孫薇 @Verawala

來自:InfoQ中文站