靈玖大資料在中文語義分析完成新突破
中文中有一詞多義,相比英文分析,中文語義分析的語義分析面臨更多技術難題。靈玖大資料在研發過程中,充分考慮到了中文特殊性,針對一詞多義和文章中出現的新地點名均提出瞭解決方案,提高了中文語義分析的準確性。
漢語智慧分詞
中文分詞是語義分析的基礎階段,是進行中文資訊處理必備的核心部件。 條件隨機場運用 CRF模型,採用了先將漢語語言進行定性的方式分析語言,根據自然語言的運用環境對多義詞進行定義,極大地提高了中文語言解析的準確性,一級詞性標註準確率接近99%,準確率高、速度快、可適應性強。
除了對多義詞的高準確率區分,在對一些地點和機構名的識別問題上,即使這類詞沒有事先存入系統,CRF模型同樣能夠自動挖掘出這類詞。條件隨機場極大地提高了識別的準確率,能夠滿足多樣場景需求。
文字關鍵字提取
提取文章關鍵詞對於讀取文章的意義在於,在掌握文章的主題思想的前提下,瞭解文章關鍵字能夠達到精華閱讀效果,完成文章的語義查詢和快速匹配。採用基於語義分析的語言統計模型,文件使用的範圍也更加廣泛,對新詞的識別率也很高。
關鍵詞提取元件的主要特點包括:
1、 速度快:實現對海量網路文字處理,實現每小時50篇文件的高效處理模式。
2、處理精準:Top N的結果反應了文章的主要枝幹方向。
3、精準排序:根據影響權重進行排序,關鍵詞可以輸出權重值;
4、開放式介面:作為LJParser的一部分,文章關鍵詞能夠提取元件採用靈活的開發介面,能夠方便地融入到使用者的業務系統中,以及支援各種作業系統和呼叫語言。
自動文字摘要
對文章進行摘要提取能夠使使用者快速掌握文章內容,提供工作效率。
自動摘要的中介軟體能夠處理的不只是單篇文章的摘要提取,還包括對同型別的文章進行處理,提取出一篇簡明扼要的摘要。同時,使用者可以自由設定摘要的長度、百分比等引數;處理速度達到每秒鐘20篇。
靈玖軟體專注於大資料語義智慧分析,憑藉其在自然語言處理、資訊檢索、資訊過濾、知識圖譜等方向的領先核心技術積累,形成了面向大型企業和政府軍隊的一系列語義智慧化軟體系統。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31386431/viewspace-2656041/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- NLPIR系統的中文語義分析模式介紹模式
- 靈玖軟體NLPIR大資料技術深度挖掘中文自然語言大資料
- 教你在Python中實現潛在語義分析Python
- 自定義註解完成資料庫切庫資料庫
- 常用語義分割資料集
- Pytorch技法:繼承Subset類完成自定義資料拆分PyTorch繼承
- 資料時代,如何重新定義NAS的靈活性?
- NLPIR語義分析系統不斷提高中文分詞準確率中文分詞
- Android開發 - 使用自定義介面在新視窗中傳回資料Android
- 大資料分析的目的與意義大資料
- 大資料分析有什麼含義大資料
- R語言資料質量分析R語言
- 自然語言處理功能的全鏈條式集合,NLPIR大資料語義智慧分析平臺自然語言處理大資料
- 資料庫在資料分析中如何應用資料庫
- 天貓精靈的自定義語音技能建立流程
- NLA自然語言分析,讓資料分析更智慧!
- 影像語義分割資料增強——imgaug(二)
- 利用transformer進行中文文字分類(資料集是復旦中文語料)ORM文字分類
- 利用TfidfVectorizer進行中文文字分類(資料集是復旦中文語料)文字分類
- 資料智慧服務商「相數科技」完成新一輪融資
- 萌新向Python資料分析及資料探勘 前言Python
- 阿里安全AI識別語義分析技術再獲突破 可快速攔截色情黑話阿里AI
- (大資料分析學習)14、廣義方差大資料
- 中文語料的 Bert finetune
- Docker,讓資料庫部署完成在彈指一揮間Docker資料庫
- R語言入門與資料分析R語言
- pytorch載入語音類自定義資料集PyTorch
- 【趙強老師】利用Python完成資料分佈特徵的分析Python特徵
- 靈玖軟體為你全方位介紹中文情感分析
- 011 Rust死靈書之幽靈資料Rust
- 如何透過一條資料庫語句做資料分析資料庫
- Octapharma在ISTH大會分享新資料
- Roslyn入門(二)-C#語義分析ROS
- Python 資料分析:讓你像寫 Sql 語句一樣,使用 Pandas 做資料分析PythonSQL
- 杉巖資料完成1.5億融資,加速以資料為核心的新儲存市場落地
- Spark——為資料分析處理提供更為靈活的賦能Spark
- 資料定義語言(DDL)
- Tensorflow2 自定義資料集圖片完成圖片分類任務