NLPIR在文字資訊提取方面的優勢介紹

ljrj123發表於2019-09-12


 

構建知識圖譜需要滿足三項要素要求,分別是實體,關係和屬性。文字資訊提取,則是在文字中提出三元資訊,包括實體和關係的資訊,實體和屬性的資訊,然後將這些關係設定成資料庫的過程。

 

進行資訊提取的主要環節介紹:

1、確定要進行資訊提取的知識本體。

2、為每一個目標知識點設立足夠的訓練語料,或是抽取足夠的編寫規則

3、利用機器學習的方法,在訓練語料和規則的基礎上,建立模型。

 

構建知識圖譜最重要的環節,NLPIR平臺KGB 知識圖譜在文字資訊提取的優勢:

 

1、能夠解析不同格式文件和圖片

KGB知識圖譜引擎,能夠對不同版本和格式的文件進行解析:TXT、DOC、EXCEL、PPT、PDF、XML等,對於圖片,OCR可自動識別並抽取圖片中的文字資訊。

2、對結構化表格資料知識抽取

KGB能夠自適應解讀並抽取結構化表格資料,實現知識的快速生成。

3、對非結構化文件知識抽取

KGB知識規則引擎,能夠快速定位非結構化文件中的關鍵資訊(主體、時間、金額等),進行高效抽取知識。

 

NLPIR大資料語義智慧分析平臺 ,是基於中文資料探勘的綜合需求, 融合了網路精準採集、自然語言理解、文字挖掘和語義搜尋的研究成果,並針對網際網路內容處理的全技術鏈條的共享開發平臺。

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31386431/viewspace-2656891/,如需轉載,請註明出處,否則將追究法律責任。

相關文章