面向NLP場景應用的智慧輔助建模(三)要素樹和概念樹建模

泰嶽語義工廠發表於2019-05-16

我們以前文介紹的一個場景本體的例項,銀行領域客服投訴分析挖掘的場景本體模型,來說明本體樹輔助建模。模型包括三部分:本體模型、要素模型、概念模型。本文說明本體樹模型的輔助建模。



面向NLP場景應用的智慧輔助建模(三)要素樹和概念樹建模






要素樹輔助建模

要素樹輔助建模(也稱要素髮現)實現的功能是,對輸入的客服投訴文字資料,利用深度學習等技術,對輸入的要素“種子詞”,自動發現種子詞相關的實體,並對實體按照屬性進行聚類,給出多種屬性的下級要素,以自動對要素種子詞的自動擴充套件,自動發現其下級要素。


面向NLP場景應用的智慧輔助建模(三)要素樹和概念樹建模

以種子詞“信用卡”為例,輔助建模給出的結果為:(冒號前是信用卡相關的語義聚類維度,冒號後是此維度下的相關實體)。

“業務”:“申請、升級、開卡、退款、簽約”等

“卡種”:“白金卡、金卡、聯名卡、招行金葵花卡”等

“費據”:“賬單、年費”等

......

要素樹輔助建模流程


步驟一
機器學習自動發現相關實體。利用深度學習演算法,從客服投訴文字資料中自動計算出“信用卡”的相關實體和概念,並給出每個實體與種子詞“信用卡”的相關度(用距離表示)。機器學習結果見上圖。
步驟二
OEC Tagging語義聚類。利用DINFO-OEC平臺提供的常用語義資源,對機器學習發現的實體進行有指導的語義聚類,如這裡根據信用卡的業務知識,種子詞“信用卡”的語義聚類結果包括“業務”、“卡種”、“費據”、“額度”等,這些結果構成信用卡要素的直接下級要素節點。這裡的語義聚類的維度,可以由業務人員來指定,也可以自動聚類來發現。
面向NLP場景應用的智慧輔助建模(三)要素樹和概念樹建模
步驟三
在DINFO-OEC平臺中,要素樹輔助建模的輸出結果,就是要素樹的節點,可直接加入到要素樹上。在要素模型中可以方便檢視。
面向NLP場景應用的智慧輔助建模(三)要素樹和概念樹建模
概念樹資源

在DINFO-OEC平臺中,分類體系輔助建模的輸出結果,就是本體樹的節點,在本體模型中可以方便檢視。


DINFO-OEC平臺提供的語義資源包括2大類:

1、常用語義資源庫,包括8萬多常用概念,可以分為“心理概念”、“語言學概念”、“異常類概念”等類別。每類概念按上下位的類進行組織,如“心理概念”,其下級有“評價”、“情感”等,“情感”的下級有“高興、悲傷”等概念。

2、領域資源庫,包括60多個領域的3000萬個概念,如銀行領域、保險領域、快遞領域等。

平臺提供的語義資源,會定期自動更新。有專業的語言資源建設團隊負責維護和更新。

面向NLP場景應用的智慧輔助建模(三)要素樹和概念樹建模
概念樹輔助建模

在特定的場景應用下,對概念的使用,可能會相當靈活,一個概念的表達不僅可以是一個詞語,而且可以是一個短語,或一個子句,如“等了兩天了還沒送到”(表達“不及時”的概念),甚至可以是一段話。

對這種不是詞語的概念,一般在平臺提供的常用語義資源中不可能完整,而需要利用機器學習演算法,從場景應用的資料中自動學習得到。概念樹輔助建模,就是幫助自動發現這些複雜概念。

概念樹輔助建模,輸入一個種子詞語,或者一個複雜概念的組合,如“態度+好”,建模工具會利用機器學習演算法,對語料自動進行概念相似度計算,發現其相關概念。如“態度+好”的相關概念有“溫柔、利索、忙前忙後、謙虛、和藹可親”等,“態度+不好”的相關概念有“蠻橫、傲慢、冷淡、惡劣、冷漠”等。

面向NLP場景應用的智慧輔助建模(三)要素樹和概念樹建模

相關文章