NLPIR大資料平臺的文字資訊提取功能介紹
文字資訊是有具體的單元結構組成,包括句子,段落,篇章。文字資訊抽取是指對現有文字資料進行資訊抽取的過程,抽取單位也有具體單位組成。比如抽取文字資料中的短語,人名,或者地名。
從機器學習的角度分析,將文字資訊抽取作為監督學習的一項具體運用。文字資訊抽取可以分為兩個階段:學習階段和抽取階段。其過程如下圖所示:
學習階段,首先有一些帶標註的資料集,每一個樣本包含文字單元序列和標註序列組成,機器學子系統基於已有的標註構建一個學習模型,並用一個條件機率分佈進行表示。資訊抽取系統則是根據得到的條件機率分佈模型,對新的樣本進行標註。
文字單元在具體的實現中可以是一個文字、一個句子、一個詞語,甚至還可以是中文的一個字,標註可能是表示資訊抽取物件的開始、結束以及其他。抽取的資訊將從開始到標註為結束的文字序列。
文字資訊抽取常用的模型有:隱馬爾科夫模型、最大熵馬爾科夫模型、條件隨機場、表決感知機模型。這些模型是上述一般文字資訊抽取的具體實現。
NLPIR大資料語義智慧分析平臺在文字資訊提取介紹方面,能夠實現新詞提取和關鍵詞提取。
新詞發現能從文字中挖掘出具有內涵的新詞、新概念,使用者可以用於專業詞典的編撰,還可以進一步編輯標註,匯入分詞詞典可提高分詞系統的準確度,並適應新的語言變化。新詞提取內容包括:詞語、詞性、權重和詞頻統計。本步驟所得到的新詞, 可以作為分詞標註器的使用者詞典匯入,從而使分詞結果更加準確。
關鍵詞提取能夠對單篇文章或文章集合,提取出若干個代表文章中心思想的 詞彙或短語,可用於精化閱讀、語義查詢和快速匹配等。關鍵詞提取能夠對單篇文章或文章集合,提取出若干個代表文章中心思想的 詞彙或短語,可用於精化閱讀、語義查詢和快速匹配等。關鍵詞分析內容包括: 詞語、詞性、權重和詞頻統計。系統預設詞彙以權重值高低排序。
同時,NLPIR大資料語義智慧分析平臺能夠實現對於新詞、關鍵詞提取結果的高維視覺化展示,視覺化形式有三種:文 本格式、二維格式與三維格式。使用者可根據需要直接使用,無須再次設計美化。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31386431/viewspace-2657107/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- NLPIR在文字資訊提取方面的優勢介紹
- NLPIR文字分析工具的功能和特色介紹
- 大資料和Hadoop平臺介紹大資料Hadoop
- DBAPI 資料介面釋出平臺功能介紹API
- 大資料技術 - 分散式訊息流平臺:Kafka與Pulsar的介紹大資料分散式Kafka
- StackGres 1.6 資料庫平臺工程功能介紹以及快速上手資料庫
- 大資料平臺是什麼?有哪些功能?如何搭建大資料平臺?大資料
- 自然語言處理功能的全鏈條式集合,NLPIR大資料語義智慧分析平臺自然語言處理大資料
- 數藏平臺功能介紹
- 大資料分析平臺功能板塊大資料
- 怎樣使用NLPIR平臺進行文字分析
- 大資料分析平臺具備怎樣的功能大資料
- 資料平臺、大資料平臺、資料中臺……還分的清不?大資料
- Hadoop - 企業級大資料管理平臺CDH(介紹和準備工作)Hadoop大資料
- 資料中臺以及資料倉儲的介紹
- 虹科乾貨 | 資料庫的九大關鍵功能介紹資料庫
- 資料Redpanda平臺簡介
- Oracle資料庫審計功能介紹Oracle資料庫
- 大資料分析平臺有哪些主要功能大資料
- 剖析大資料平臺的資料處理大資料
- 智慧公安視覺化資訊研判大資料平臺視覺化大資料
- Bootstrap Blazor 元件介紹 Table (三)列資料格式功能介紹bootBlazor元件
- NLPIR平臺的文字聚類模組完美契合行業需求聚類行業
- 大資料治理——搭建大資料探索平臺大資料
- 深度解析大快DKadoop大資料運維管理平臺功能OOP大資料運維
- 大資料崗位介紹-引子大資料
- Python提取文字檔案(.txt)資料的方法Python
- 物聯網大資料平臺需要具備哪些功能大資料
- NLPIR平臺實現文字挖掘的一站式應用
- Easysearch 資料視覺化和管理平臺:INFINI Console 使用介紹視覺化
- 大快搜尋大資料基礎管理平臺功能深度解析大資料
- 大資料平臺CDH搭建大資料
- 分析平臺Tableau推出資料和分析平臺新功能
- 大資料 Hadoop介紹、配置與使用大資料Hadoop
- 四種大資料分析方法介紹!大資料
- DataPipeline在大資料平臺的資料流實踐API大資料
- 資料中臺(介紹篇)
- DKHadoop大資料視覺化平臺監控功能深度解析Hadoop大資料視覺化