靈玖大資料在中文語義分析完成新突破
中文中有一詞多義,相比英文分析,中文語義分析的語義分析面臨更多技術難題。靈玖大資料在研發過程中,充分考慮到了中文特殊性,針對一詞多義和文章中出現的新地點名均提出瞭解決方案,提高了中文語義分析的準確性。
漢語智慧分詞
中文分詞是語義分析的基礎階段,是進行中文資訊處理必備的核心部件。 條件隨機場運用 CRF模型,採用了先將漢語語言進行定性的方式分析語言,根據自然語言的運用環境對多義詞進行定義,極大地提高了中文語言解析的準確性,一級詞性標註準確率接近99%,準確率高、速度快、可適應性強。
除了對多義詞的高準確率區分,在對一些地點和機構名的識別問題上,即使這類詞沒有事先存入系統,CRF模型同樣能夠自動挖掘出這類詞。條件隨機場極大地提高了識別的準確率,能夠滿足多樣場景需求。
文字關鍵字提取
提取文章關鍵詞對於讀取文章的意義在於,在掌握文章的主題思想的前提下,瞭解文章關鍵字能夠達到精華閱讀效果,完成文章的語義查詢和快速匹配。採用基於語義分析的語言統計模型,文件使用的範圍也更加廣泛,對新詞的識別率也很高。
關鍵詞提取元件的主要特點包括:
1、 速度快:實現對海量網路文字處理,實現每小時50篇文件的高效處理模式。
2、處理精準:Top N的結果反應了文章的主要枝幹方向。
3、精準排序:根據影響權重進行排序,關鍵詞可以輸出權重值;
4、開放式介面:作為LJParser的一部分,文章關鍵詞能夠提取元件採用靈活的開發介面,能夠方便地融入到使用者的業務系統中,以及支援各種作業系統和呼叫語言。
自動文字摘要
對文章進行摘要提取能夠使使用者快速掌握文章內容,提供工作效率。
自動摘要的中介軟體能夠處理的不只是單篇文章的摘要提取,還包括對同型別的文章進行處理,提取出一篇簡明扼要的摘要。同時,使用者可以自由設定摘要的長度、百分比等引數;處理速度達到每秒鐘20篇。
靈玖軟體專注於大資料語義智慧分析,憑藉其在自然語言處理、資訊檢索、資訊過濾、知識圖譜等方向的領先核心技術積累,形成了面向大型企業和政府軍隊的一系列語義智慧化軟體系統。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31386431/viewspace-2656041/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 大資料語義分析:靈玖中文分詞的分詞處理大資料中文分詞
- 語義分析發現:靈玖大資料檢索與分詞大資料分詞
- 潛在語義分析
- 語義挖掘:靈玖大資料漢語智慧分詞大資料分詞
- 語義挖掘:靈玖大資料文字過濾大資料
- 資料分析突破運營
- NLPIR系統的中文語義分析模式介紹模式
- 靈玖軟體NLPIR大資料技術深度挖掘中文自然語言大資料
- 教你在Python中實現潛在語義分析Python
- 自定義註解完成資料庫切庫資料庫
- 語言技術平臺(LTP)釋出新功能:中文語義依存圖分析
- 常用語義分割資料集
- 資料時代,如何重新定義NAS的靈活性?
- Excel語音朗讀表格資料 輕鬆完成資料檢查Excel
- Pytorch技法:繼承Subset類完成自定義資料拆分PyTorch繼承
- NLPIR語義分析系統不斷提高中文分詞準確率中文分詞
- Android開發 - 使用自定義介面在新視窗中傳回資料Android
- LinkedIn高階分析師王益:大資料時代的理想主義和現實主義(圖靈訪談)大資料圖靈
- 天貓精靈的自定義語音技能建立流程
- 大資料分析有什麼含義大資料
- 大資料分析的目的與意義大資料
- dnf混沌魔靈鴨子流派解析 dnf武器資料分析
- 阿里安全AI識別語義分析技術再獲突破 可快速攔截色情黑話阿里AI
- 資料庫在資料分析中如何應用資料庫
- 外部資料在資料分析中的應用
- 資料分析與R語言01R語言
- R語言資料質量分析R語言
- 大資料分析服務公司Hortonworks完成5000萬美元融資大資料
- 【analyze】使用PL/SQL 方法完成多使用者資料分析SQL
- 利用transformer進行中文文字分類(資料集是復旦中文語料)ORM文字分類
- 利用TfidfVectorizer進行中文文字分類(資料集是復旦中文語料)文字分類
- 自然語言處理功能的全鏈條式集合,NLPIR大資料語義智慧分析平臺自然語言處理大資料
- 影像語義分割資料增強——imgaug(二)
- 資料智慧服務商「相數科技」完成新一輪融資
- 資料庫實驗3 資料定義語言DDL資料庫
- NLA自然語言分析,讓資料分析更智慧!
- Docker,讓資料庫部署完成在彈指一揮間Docker資料庫
- (大資料分析學習)14、廣義方差大資料