靈玖大資料在中文語義分析完成新突破

ljrj123發表於2019-09-04


 

中文中有一詞多義,相比英文分析,中文語義分析的語義分析面臨更多技術難題。靈玖大資料在研發過程中,充分考慮到了中文特殊性,針對一詞多義和文章中出現的新地點名均提出瞭解決方案,提高了中文語義分析的準確性。

漢語智慧分詞

中文分詞是語義分析的基礎階段,是進行中文資訊處理必備的核心部件。 條件隨機場運用 CRF模型,採用了先將漢語語言進行定性的方式分析語言,根據自然語言的運用環境對多義詞進行定義,極大地提高了中文語言解析的準確性,一級詞性標註準確率接近99%,準確率高、速度快、可適應性強。

 

除了對多義詞的高準確率區分,在對一些地點和機構名的識別問題上,即使這類詞沒有事先存入系統,CRF模型同樣能夠自動挖掘出這類詞。條件隨機場極大地提高了識別的準確率,能夠滿足多樣場景需求。

 

文字關鍵字提取

 

提取文章關鍵詞對於讀取文章的意義在於,在掌握文章的主題思想的前提下,瞭解文章關鍵字能夠達到精華閱讀效果,完成文章的語義查詢和快速匹配。採用基於語義分析的語言統計模型,文件使用的範圍也更加廣泛,對新詞的識別率也很高。

 

關鍵詞提取元件的主要特點包括:

1、 速度快:實現對海量網路文字處理,實現每小時50篇文件的高效處理模式。

2、處理精準:Top N的結果反應了文章的主要枝幹方向。

3、精準排序:根據影響權重進行排序,關鍵詞可以輸出權重值;

4、開放式介面:作為LJParser的一部分,文章關鍵詞能夠提取元件採用靈活的開發介面,能夠方便地融入到使用者的業務系統中,以及支援各種作業系統和呼叫語言。

 

自動文字摘要

對文章進行摘要提取能夠使使用者快速掌握文章內容,提供工作效率。

自動摘要的中介軟體能夠處理的不只是單篇文章的摘要提取,還包括對同型別的文章進行處理,提取出一篇簡明扼要的摘要。同時,使用者可以自由設定摘要的長度、百分比等引數;處理速度達到每秒鐘20篇。

 

靈玖軟體專注於大資料語義智慧分析,憑藉其在自然語言處理、資訊檢索、資訊過濾、知識圖譜等方向的領先核心技術積累,形成了面向大型企業和政府軍隊的一系列語義智慧化軟體系統。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31386431/viewspace-2656041/,如需轉載,請註明出處,否則將追究法律責任。

相關文章