我們以前文介紹的一個場景本體的例項,銀行領域客服投訴分析挖掘的場景本體模型,來說明本體樹輔助建模。模型包括三部分:本體模型、要素模型、概念模型。本文說明本體樹模型的輔助建模。
要素樹輔助建模
要素樹輔助建模(也稱要素髮現)實現的功能是,對輸入的客服投訴文字資料,利用深度學習等技術,對輸入的要素“種子詞”,自動發現種子詞相關的實體,並對實體按照屬性進行聚類,給出多種屬性的下級要素,以自動對要素種子詞的自動擴充套件,自動發現其下級要素。
以種子詞“信用卡”為例,輔助建模給出的結果為:(冒號前是信用卡相關的語義聚類維度,冒號後是此維度下的相關實體)。
“業務”:“申請、升級、開卡、退款、簽約”等
“卡種”:“白金卡、金卡、聯名卡、招行金葵花卡”等
“費據”:“賬單、年費”等
......
在DINFO-OEC平臺中,分類體系輔助建模的輸出結果,就是本體樹的節點,在本體模型中可以方便檢視。
DINFO-OEC平臺提供的語義資源包括2大類:
1、常用語義資源庫,包括8萬多常用概念,可以分為“心理概念”、“語言學概念”、“異常類概念”等類別。每類概念按上下位的類進行組織,如“心理概念”,其下級有“評價”、“情感”等,“情感”的下級有“高興、悲傷”等概念。
2、領域資源庫,包括60多個領域的3000萬個概念,如銀行領域、保險領域、快遞領域等。
平臺提供的語義資源,會定期自動更新。有專業的語言資源建設團隊負責維護和更新。
在特定的場景應用下,對概念的使用,可能會相當靈活,一個概念的表達不僅可以是一個詞語,而且可以是一個短語,或一個子句,如“等了兩天了還沒送到”(表達“不及時”的概念),甚至可以是一段話。
對這種不是詞語的概念,一般在平臺提供的常用語義資源中不可能完整,而需要利用機器學習演算法,從場景應用的資料中自動學習得到。概念樹輔助建模,就是幫助自動發現這些複雜概念。
概念樹輔助建模,輸入一個種子詞語,或者一個複雜概念的組合,如“態度+好”,建模工具會利用機器學習演算法,對語料自動進行概念相似度計算,發現其相關概念。如“態度+好”的相關概念有“溫柔、利索、忙前忙後、謙虛、和藹可親”等,“態度+不好”的相關概念有“蠻橫、傲慢、冷淡、惡劣、冷漠”等。