KGB知識圖譜在智慧問答方向發揮技術特色

ljrj123發表於2020-01-19


智慧問答即給定自然語言問題,透過對問題進行語義理解和解析,進而利用知識庫進行查詢、推理得出答案。如下圖所示:

與對話系統、對話機器人的互動式對話不同,智慧問答具有以下特點:

答案:回答的答案是知識庫中的實體或實體關係,或者no-answer(即該問題在KB中找不到答案),當然這裡答案不一定唯一,比如 中國的城市有哪些 。而對話系統則回覆的是自然語言句子,有時甚至需要考慮上下文語境。評價標準:召回率 (Recall),精確率 (Precision) ,F1-Score。而對話系統的評價標準以人工評價為主,以及BLEU和Perplexity。

知識庫問答的主流方法

語義解析( Semantic Parsing):該方法是一種偏linguistic的方法,主體思想是將自然語言轉化為一系列形式化的邏輯形式(logic form),透過對邏輯形式進行自底向上的解析,得到一種可以表達整個問題語義的邏輯形式,透過相應的查詢語句(類似lambda-Caculus)在知識庫中進行查詢,從而得出答案。

資訊抽取(Information Extraction):該類方法透過提取問題中的實體,透過在知識庫中查詢該實體可以得到以該實體節點為中心的知識庫子圖,子圖中的每一個節點或邊都可以作為候選答案,透過觀察問題依據某些規則或模板進行資訊抽取,得到問題特徵向量,建立分類器透過輸入問題特徵向量對候選答案進行篩選,從而得出最終答案。

向量建模(Vector Modeling): 該方法思想和資訊抽取的思想比較接近,根據問題得出候選答案,把問題和候選答案都對映為分散式表達(Distributed Embedding),透過訓練資料對該分散式表達進行訓練,使得問題和正確答案的向量表達的得分(通常以點乘為形式)儘量高模型訓練完成後則可根據候選答案的向量表達和問題表達的得分進行篩選,得出最終答案。

KGB知識圖譜現已實現以下功能:1.文件解析:KGB知識圖譜引擎,可輕鬆解析多種格式與版本文件:TXT、DOC、EXCEL、PPT、PDF、XML等。尤其是PDF檔案,可直接解析輸出為word格式檔案,保留檔案中表格與文字格式等重要資訊。對於圖片資訊,OCR可自動識別並抽取圖片中的文字資訊。2. 知識抽取:KGB知識圖譜引擎,可從結構化表格與非結構化文字中自適應識別並抽取關鍵知識(主體、客體、時間、地點、金額、條款等),準確率高達90%,實現知識的快速生成。3、知識關聯:KGB知識圖譜引擎深入挖掘知識關聯,將一個個知識實體連結為具有完整意義的知識事實。並具有強大的知識推理能力,推理出暗含的知識與結論,豐富知識圖譜。4、知識較驗:KGB知識圖譜加工廠能夠對知識質量智慧校驗,包括對多種知識錯誤與衝突進行自動智慧核查與修正,更有知識工程師進行知識精準校驗,保證知識圖譜的準確性。

在行業應用方面,KGB知識圖譜具有以下特色:1、跨領域可擴充套件:知識圖譜加工廠具有通用的圖譜構建引擎。知識抽取、知識關聯與質量核查過程不依賴特定業務知識,結合使用者知識圖譜構建的需求,可以快速構建使用者領域知識圖譜。2、知識質量智慧核查:知識圖譜加工廠實現對多種知識錯誤與衝突的智慧核查與校驗,並對知識庫進行實時自動更新,保證知識圖譜準確性。3、人機結合的服務:知識圖譜加工場人機構成:90%機器+10%的人工,只需要提供語料,就可以快速得到對應的知識圖譜構建成果。

 

 

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31386431/viewspace-2674025/,如需轉載,請註明出處,否則將追究法律責任。

相關文章