敏捷AI | NLP技術在宜信業務中的實踐【構建使用者畫像篇】

宜信技術學院發表於2019-09-18

原文網址 : http://blog.itpub.net/69918724/viewspace-2657340/

敏捷AI

擴充閱讀：敏捷AI | NLP技術在宜信業務中的實踐【智慧聊天機器人篇】

高階場景之構建客戶畫像

在許多企業中，每天業務人員和客戶的溝通都會產生大量記錄，這些記錄可能包括了客服的溝通資料（通話記錄、通話小結），也可能包括了各式各樣的報告資料（陪訪報告、徵信報告等）（見圖1）。

圖1 業務人員與客戶產生溝通記錄

前者可能口語會多一些，後者則主要是書面用語。但兩者之間有一個共同的特點，就是其中都蘊含著豐富的客戶資訊。想要把這些資訊提取出來，我們就需要利用到（NLP）技術。

圖2為一段客戶陪訪報告的節選，觀察其文字特徵，發現有許多業務所關注的資訊，比如職業方面，客戶是“大學教授”；在可投資產方面，金額有“100萬”，投資型別是“銀行理cai”，對公司的態度是“不瞭解”等。

圖2 客戶陪訪報告示例

所以我們完全可以通過NLP分析文字，對其中的客戶特徵進行標籤化提取，最終利用得到的標籤構建出客戶畫像。這樣做的好處很多，比如方便我們的業務人員隨時發現關鍵問題，便於跟進；自動化處理，提高工作效率。根據挖掘出的資訊構建出客戶標籤畫像之後，就可以方便地盤點特定時間範圍內的需求特點，為新產品設定提供係數參考，或者補充、驗證結構化欄位內容。

總體的實施路線如圖3所示，先通過業務分析來定義業務關注的標籤庫，然後針對定義出來的標籤訓練相應的提取模型，最後利用模型對資料進行分析，得到一系列客戶標籤，再對其進行彙總，最終形成客戶畫像。

圖3 總體實施路線

總體的路線是這樣的，但具體的實施過程中我們也有一些細節需要關注。通過對之前的資料進行分析，我們發現了一些特徵，比如文字之中資訊高度集中，資訊表述通常以短句為單位，但是單一短句語義存在模糊性，還需要結合一定的上下文對其進行分析。所以我們需要對複雜句進行適當的切割，確定合適的資料粒度，同時配合一個適當大小的短句滑動視窗來捕獲相關的上下文語義。

此外對於內部的業務文字來說，其內容涉及大量產品的專有實體名稱和術語，以及較多的數字。針對這種情況，我們建立了專門的詞庫和實體庫，對相應的實體名稱和術語進行準確的切割和識別。對於數字的處理，我們先後比較字向量、識別符號替換、規則識別+後處理等等技術方案，並且選擇了其中效果最好的方法。

當然我們也面臨著普遍存在的標註語料不足的問題，因此在這個專案中，我們側重於研究怎麼在小樣本條件下進行Few-shot learning。

實際中，在大多數專業領域AI專案實施過程中，都存在著標註資料不足的情況，所以針對小樣本進行學習的Few-shot learning也越來越凸顯其重要性。Few-shot learning包括很多種技術，有常見的遷移學習+fine-tuning技術，典型的如Bert；也有基於半監督訓練的一些技術，如基於相似性度量的一些神經網路模型，基於最近鄰演算法的樣本標註擴散這些技術等；還有meta learning的相關技術，例如OpenAI在ICLR 2018上的best paper；甚至還有一些圖網路的相關技術。

在以上種種技術當中，比較適合工程化的、比較容易實施的還是基於遷移學習的方法。在我們的專案中，發現遷移學習，也就是基於預訓練模型，遷移到目標訓練任務上，再加上半監督學習的標註輔助，可以比較好的滿足我們的需求。

下面介紹一下我們的演算法流程：先對複雜句進行清洗與切割；之後可以選擇性的加入一些過濾規則，快速地去除那些比較明顯的噪音資料；然後將資料流入到標籤提取模型之中，得到具體的標籤；最後在畫像構建階段對得到的所有標籤進行去重、消歧，形成最終的客戶畫像。

具體到演算法模型，我們也先後比較許多方法，本質上我們認為標籤識別模型是一個短文字分類演算法，我們嘗試了基於統計的方法（SVM, Random Forest, XgBoost），也嘗試了基於神經網路的模型（FastText,Text CNN/RNN/RCNN, HAN），最終我們選擇了HAN模型，也就是層次注意網路（Hierarchical Attention Network）模型，通過在詞一級和句一級分別進行RNN和Attention計算，最終得到一個合理的文字向量表徵，用於最後的分類，整個過程如圖4所示。

圖4 HAN模型架構

圖5是本例項的總體處理流程，經過資料預處理之後，文字被並行地分配到各個業務關注標籤提取模型之中，輸出各個業務標籤，最終彙總到客戶畫像構建模組，在此進行去重、消解歧義和矛盾，最後得到客戶的畫像。

圖5 例項處理總體流程

另外我們結合公司的敏捷實時資料平臺設計了一個相應的實時AI解決方案，如圖6所示，這裡用到了我們團隊開源的一些技術，包括DBus（資料匯流排平臺），Wormhole（流式處理平臺），Moonbox（計算服務平臺）以及Davinci（可視應用平臺），這四個平臺構成了敏捷大資料平臺棧。

在這個方案裡，我們通過DBus來採集各類資料儲存中的自然語言資料，經過一些可選的技術（如ASR等）得到相應的文字；再通過Wormhole來進行實時的流式處理，標籤模型在Wormhole的實時資料流上執行，對資料流中的文字自動提取相應的標籤，再由Wormhole輸出到指定的資料儲存中；之後由Moonbox對標籤進行後續的彙總處理，先從儲存介質之上把之前計算得到的標籤提取出來，使用畫像模型對畫像進行構建，輸出到如Redis之類的儲存介質之中，最後推送給業務系統供其使用。這就是我們實現的一個實時使用者畫像處理流程。

圖6

此外，在圖6下方的資料流分支裡，我們通過在Wormhole上流轉的生產資料流進行一個選擇性抽樣，之後同樣利用標籤模型和畫像模型，計算出客戶畫像，此後將原始資料、標籤資料和客戶畫像通過Davinci展示給我們的模型維護人員，用於評估檢查模型的執行情況，這樣就實現了一個實時的模型效果監控系統。綜合這兩者，我們就得到了一個實時的、基於文字分析的畫像構建系統。

總結

隨著各企業實體對自然語言資料愈發關注，NLP+AI技術在各領域都成了非常重要、核心的基礎技術服務。領域知識與NLP技術的結合帶來了新的技術產品，創造出了新的商業價值，比如我們目前常用的一些產品：Siri、小愛同學等等，這種Conversational UI帶來的不僅是一種全新的互動模式，更是開闢了一個新的產品領域。

在資料方面，雖然自然語言的資料存量很大，但目前來看無論是通用領域還是專業領域，經過加工整理的高質量自然語言語料資料資源還是比較缺乏，因此其具有非常高的價值。領域語料的積累可以極大提升AI產品的效果，在一定程度上幫助企業形成新的資料壁壘、技術壁壘。

在NLP的演算法方面，就未來一段時間來看，如前文所述，面對小語料任務的Few-shot Learning會越來越受關注，尤其是以Bert為代表的遷移學習技術，將給現在的一些NLP任務帶來一場革命。此外還有針對NLP語料的資料增強技術，我們知道在影象領域資料增強技術已經比較成熟，是一種常見的資料處理方式，但是在NLP領域資料增強技術的發展還不夠成熟，如果能在這方面有所突破的話，相信會對各類NLP任務都有很大幫助。

NLP技術的發展還需要業界各企業、各位演算法與工程專家的共同努力，相信未來我們能夠更準確、更快速、更方便地理解各領域的自然語言資料。

作者：井玉欣

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/69918724/viewspace-2657340/，如需轉載，請註明出處，否則將追究法律責任。

AI中臺：一種敏捷的智慧業務支援方案|宜信技術學院沙龍分享實錄
2019-05-08
AI敏捷
宜信智慧監控平臺建設實踐|宜信技術沙龍
2019-10-29
資料中臺：宜信敏捷資料中臺建設實踐
2019-05-14
敏捷
宜信OCR技術探索之版面分析業務實踐|技術沙龍直播速記
2020-09-07
Kubernetes在宜信落地實踐
2018-12-04
宜信微服務任務排程平臺建設實踐
2019-09-10
微服務
宜信OCR技術探索與實踐|直播速記
2020-07-30
基於MaxCompute構建企業使用者畫像
2018-09-29
宜信微服務任務排程平臺建設實踐|分享實錄
2019-10-22
微服務
畫像標籤體系構建與應用實踐
2024-03-06
GPU在AI業務中的核心技術與應用
2022-01-11
GPUAI
日處理資料量超10億：友信金服基於Flink構建實時使用者畫像系統的實踐
2019-12-30
宜信區塊鏈|一篇乾貨文讀懂宜信的區塊鏈實踐
2019-12-17
區塊鏈
基於MaxCompute構建企業使用者畫像（使用者標籤的製作）
2018-03-15
各公司使用者畫像技術案例分享
2022-04-24
宜信智慧監控平臺建設實踐|分享實錄
2019-11-20
AI 安全在阿里業務中的實踐，你瞭解嗎？
2019-03-11
AI阿里
AI安全在阿里業務中的實踐，你瞭解嗎？
2019-03-11
AI阿里
宜信技術學院上榜「2019中國技術品牌影響力企業榜」
2019-12-26
大資料智慧：金融行業使用者畫像最佳實踐
2020-04-04
大資料行業
個推使用者畫像的實踐與應用
2019-01-29
ARKit：擴增實境技術在美團到餐業務的實踐
2018-09-14
專訪宜信CTO向江旭：技術應當服務於場景，AI天生適合金融業
2019-05-24
AI
容器技術在企業落地的最佳實踐
2020-07-20
黃波：AI技術在知乎的應用實踐
2019-01-16
AI
揭祕宜信財富年度賬單的技術實現
2020-01-03
【主流技術】Redis 在 Spring 框架中的實踐
2022-07-11
RedisSpring框架
Docker映象構建：技術深度解析與實踐指南
2024-07-30
Docker
華為雲受邀出席AICon2024 分享AI Agent在企業生產中的技術實踐
2024-05-24
AI
【須彌SUMERU】宜信分散式安全服務編排實踐
2019-08-29
分散式
【主流技術】ElasticSearch 在 Spring 專案中的實踐
2022-06-20
ElasticsearchSpring
宜信微服務架構落地及其演進|分享實錄
2019-12-25
微服務架構
精準服務並不難！Smartbi資料分析神器助你構建使用者畫像
2021-12-09
單測在商家前端業務中的實踐
2022-12-27
前端
信創雲安全建設實踐|構建更加智慧、安全的政務雲服務體系
2021-02-03
經驗分享：在金融企業中實施領域驅動設計的敏捷實踐 | 敏捷聯盟
2019-07-11
敏捷
【流沙】宜信安全資料平臺實踐
2019-06-14
網易嚴選基於“服務畫像”的長效穩定效能力建設實踐
2022-12-27

敏捷AI | NLP技術在宜信業務中的實踐【構建使用者畫像篇】

高階場景之構建客戶畫像

總結

相關文章