我們以前文介紹的一個場景本體的例項,銀行領域客服投訴分析挖掘的場景本體模型,來說明本體樹輔助建模。模型包括三部分:本體模型、要素模型、概念模型。本文說明本體樹模型的輔助建模。
![面向NLP場景應用的智慧輔助建模(三)要素樹和概念樹建模](https://i.iter01.com/images/c09afa4737ee48a3ad8d4c8bbeefbe82a136d66f58840c651443dab8e2e3ecdf.jpg)
要素樹輔助建模
要素樹輔助建模(也稱要素髮現)實現的功能是,對輸入的客服投訴文字資料,利用深度學習等技術,對輸入的要素“種子詞”,自動發現種子詞相關的實體,並對實體按照屬性進行聚類,給出多種屬性的下級要素,以自動對要素種子詞的自動擴充套件,自動發現其下級要素。
![面向NLP場景應用的智慧輔助建模(三)要素樹和概念樹建模](https://i.iter01.com/images/8aa3e1c637bb03ef37d391aaf131b8e90fafa150d54d6a61dae70d9e50d389e6.jpg)
以種子詞“信用卡”為例,輔助建模給出的結果為:(冒號前是信用卡相關的語義聚類維度,冒號後是此維度下的相關實體)。
“業務”:“申請、升級、開卡、退款、簽約”等
“卡種”:“白金卡、金卡、聯名卡、招行金葵花卡”等
“費據”:“賬單、年費”等
......
![面向NLP場景應用的智慧輔助建模(三)要素樹和概念樹建模](https://i.iter01.com/images/41591e073fe1a109c36dfdfb5cad798ba91e6e31029e9cb4358420b7eb6abace.jpg)
![面向NLP場景應用的智慧輔助建模(三)要素樹和概念樹建模](https://i.iter01.com/images/8aa3e1c637bb03ef37d391aaf131b8e90fafa150d54d6a61dae70d9e50d389e6.jpg)
在DINFO-OEC平臺中,分類體系輔助建模的輸出結果,就是本體樹的節點,在本體模型中可以方便檢視。
DINFO-OEC平臺提供的語義資源包括2大類:
1、常用語義資源庫,包括8萬多常用概念,可以分為“心理概念”、“語言學概念”、“異常類概念”等類別。每類概念按上下位的類進行組織,如“心理概念”,其下級有“評價”、“情感”等,“情感”的下級有“高興、悲傷”等概念。
2、領域資源庫,包括60多個領域的3000萬個概念,如銀行領域、保險領域、快遞領域等。
平臺提供的語義資源,會定期自動更新。有專業的語言資源建設團隊負責維護和更新。
![面向NLP場景應用的智慧輔助建模(三)要素樹和概念樹建模](https://i.iter01.com/images/f2c03225510cca5ec42c954dc71abe015deea82d37f501bbe6b1ad3cbecd4bdb.jpg)
在特定的場景應用下,對概念的使用,可能會相當靈活,一個概念的表達不僅可以是一個詞語,而且可以是一個短語,或一個子句,如“等了兩天了還沒送到”(表達“不及時”的概念),甚至可以是一段話。
對這種不是詞語的概念,一般在平臺提供的常用語義資源中不可能完整,而需要利用機器學習演算法,從場景應用的資料中自動學習得到。概念樹輔助建模,就是幫助自動發現這些複雜概念。
概念樹輔助建模,輸入一個種子詞語,或者一個複雜概念的組合,如“態度+好”,建模工具會利用機器學習演算法,對語料自動進行概念相似度計算,發現其相關概念。如“態度+好”的相關概念有“溫柔、利索、忙前忙後、謙虛、和藹可親”等,“態度+不好”的相關概念有“蠻橫、傲慢、冷淡、惡劣、冷漠”等。
![面向NLP場景應用的智慧輔助建模(三)要素樹和概念樹建模](https://i.iter01.com/images/aa2eb127d0e8c979db10ac17698acd04e31db7fb16a1c13b96c9ca48428bf8d2.png)