NLPIR大資料平臺的文字資訊提取功能介紹

ljrj123發表於2019-09-16

文字資訊是有具體的單元結構組成,包括句子,段落,篇章。文字資訊抽取是指對現有文字資料進行資訊抽取的過程,抽取單位也有具體單位組成。比如抽取文字資料中的短語,人名,或者地名。

 

從機器學習的角度分析,將文字資訊抽取作為監督學習的一項具體運用。文字資訊抽取可以分為兩個階段:學習階段和抽取階段。其過程如下圖所示: 


學習階段,首先有一些帶標註的資料集,每一個樣本包含文字單元序列和標註序列組成,機器學子系統基於已有的標註構建一個學習模型,並用一個條件機率分佈進行表示。資訊抽取系統則是根據得到的條件機率分佈模型,對新的樣本進行標註。

 

文字單元在具體的實現中可以是一個文字、一個句子、一個詞語,甚至還可以是中文的一個字,標註可能是表示資訊抽取物件的開始、結束以及其他。抽取的資訊將從開始到標註為結束的文字序列。

 

文字資訊抽取常用的模型有:隱馬爾科夫模型、最大熵馬爾科夫模型、條件隨機場、表決感知機模型。這些模型是上述一般文字資訊抽取的具體實現。 

 

NLPIR大資料語義智慧分析平臺在文字資訊提取介紹方面,能夠實現新詞提取和關鍵詞提取。

 

新詞發現能從文字中挖掘出具有內涵的新詞、新概念,使用者可以用於專業詞典的編撰,還可以進一步編輯標註,匯入分詞詞典可提高分詞系統的準確度,並適應新的語言變化。新詞提取內容包括:詞語、詞性、權重和詞頻統計。本步驟所得到的新詞, 可以作為分詞標註器的使用者詞典匯入,從而使分詞結果更加準確。

 

關鍵詞提取能夠對單篇文章或文章集合,提取出若干個代表文章中心思想的 詞彙或短語,可用於精化閱讀、語義查詢和快速匹配等。關鍵詞提取能夠對單篇文章或文章集合,提取出若干個代表文章中心思想的 詞彙或短語,可用於精化閱讀、語義查詢和快速匹配等。關鍵詞分析內容包括: 詞語、詞性、權重和詞頻統計。系統預設詞彙以權重值高低排序。

 

同時,NLPIR大資料語義智慧分析平臺能夠實現對於新詞、關鍵詞提取結果的高維視覺化展示,視覺化形式有三種:文 本格式、二維格式與三維格式。使用者可根據需要直接使用,無須再次設計美化。 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31386431/viewspace-2657107/,如需轉載,請註明出處,否則將追究法律責任。

相關文章