語義挖掘:靈玖大資料漢語智慧分詞
自然語言處理(NLP,Natural Language Processing)是一個資訊時代最重要的技術之一,簡單來講,就是讓計算機能夠理解人類語言的一種技術。在其中,分詞技術是一種比較基礎的模組,分詞的意義非常大,在中文中,單字作為最基本的語義單位,雖然也有自己的意義,但表意能力較差,意義較分散,而詞的表意能力更強,能更加準確的描述一個事物,因此在自然語言處理中,通常情況下詞(包括單字成詞)是最基本的處理單位。
漢語詞技術對中文搜尋引擎的查準率及查全率有重大影響。漢語詞法分析中介軟體能對漢語語言進行拆分處理,是中文資訊處理必備的核心部件。靈玖綜合了各家所長經過多年的努力研發裡靈玖漢語智慧分詞系統,分詞準確率接近99%,具備準確率高、速度快、可適應性強等優勢;特色功能包括:切分粒度可調整,融合20餘部行業專有詞典,支援使用者自定義詞典等。
在具體的應用上,比如在常用的搜尋引擎中,term如果是詞粒度的話,不僅能夠減少每個term的倒排列表長度,提升系統效能,並且召回的結果相關性高更準確。比如搜尋query“的確”,如果是單字切分的話,則有可能召回“你講的確實在理”這樣的doc。靈玖漢語智慧分詞系統是採用條件隨機場(Conditional Random Field,簡稱CRF)模型進行分詞。
條件隨機域(場)(conditional random fields,簡稱 CRF,或CRFs),是一種鑑別式機率模型,是隨機場的一種,常用於標註或分析序列資料,如自然語言文字或是生物序列。 因為其強大的表達能力和出色的效能,得到了廣泛的應用。從最通用角度來看,CRF本質上是給定了觀察值集合(observations)的馬爾可夫隨機場。在這裡,我們直接從最通用的角度來認識和理解CRF,最後可以看到,線性CRF和所謂的高階CRF,都是某種特定結構的CRF。
1. 隨機場
簡單地講,隨機場可以看成是一組隨機變數的集合(這組隨機變數對應同一個樣本空間)。當然,這些隨機變數之間可能有依賴關係,一般來說,也只有當這些變數之間有依賴關係的時候,我們將其單獨拿出來看成一個隨機場才有實際意義。
2. Markov隨機場(MRF)
這是加了Markov性質限制的隨機場。首先,一個Markov隨機場對應一個無向圖。這個無向圖上的每一個節點對應一個隨機變數,節點之間的邊表示節點對應的隨機變數之間有機率依賴關係。因此,Markov隨機場的結構本質上反應了我們的先驗知識——哪些變數之間有依賴關係需要考慮,而哪些可以忽略。Markov性質是指,對Markov隨機場中的任何一個隨機變數,給定場中其他所有變數下該變數的分佈,等同於給定場中該變數的鄰居節點下該變數的分佈。這讓人立刻聯想到馬式鏈的定義:它們都體現了一個思想:離當前因素比較遙遠(這個遙遠要根據具體情況自己定義)的因素對當前因素的性質影響不大。
3.從Markov隨機場到CRF
現在,如果給定的MRF中每個隨機變數下面還有觀察值,我們要確定的是給定觀察集合下,這個MRF的分佈,也就是條件分佈,那麼這個MRF就稱為CRF(Conditional Random Field)。
4.訓練
透過一組樣本,我們希望能夠得到CRF對應的分佈形式,並且用這種分佈形式對測試樣本進行分類。也就是測試樣本中每個隨機變數的取值。
在實際應用中,clique-potential主要由使用者自己定義的特徵函式組成,即使用者自己定義一組函式,這些函式被認為是可以用來幫助描述隨機變數分佈的。而這些特徵函式的強弱以及正向、負向是透過訓練得到的一組權重來表達的,這樣,實際應用中我們需要給出特徵函式以及權重的共享關係(不同的特徵函式可能共享同一個權重),而clicque-potential本質上成了對應特徵函式的線性組合。這些權重就成了CRF的引數。因此,本質上,圖的結構是使用者透過給出特徵函式的定義確定的(例如,只有一維特徵函式,對應的圖上是沒有邊的)還有,CRF的分佈成了對數線性形式。
5.推斷
如前所述,訓練的過程中我們需要機率推斷,分類的時候我們需要找出機率最大的一組解,這都涉及到推斷。這個問題本質上屬於圖模型上的機率推斷問題。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31386431/viewspace-2128628/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 文字挖掘之語料庫、分詞、詞頻統計分詞
- NLPIR語義挖掘技術提升大資料處理效果大資料
- 靈玖軟體NLPIR大資料技術深度挖掘中文自然語言大資料
- 靈玖大資料在中文語義分析完成新突破大資料
- 中文分詞研究難點-詞語劃分和語言規範中文分詞
- 引言:分詞與語法解析分詞
- 國內免費漢語語料庫-NLP
- 分享一個自然語言漢語時間語義識別的工具類
- 常用語義分割資料集
- 1.分詞與語法解析分詞
- 自然語言處理:分詞方法自然語言處理分詞
- 漢字轉漢語拼音
- NLPIR語義分析系統不斷提高中文分詞準確率中文分詞
- 將使用jieba分詞的語料庫轉化成TFIDF向量Jieba分詞
- 自然語言處理之jieba分詞自然語言處理Jieba分詞
- 中考常見同義詞和同義短語總結
- 自然語言處理功能的全鏈條式集合,NLPIR大資料語義智慧分析平臺自然語言處理大資料
- Java中文分片語件 - word分詞(skycto JEEditor)Java分詞
- 詞語詞頻統計
- 自然語言處理工具pyhanlp分詞與詞性標註自然語言處理HanLP分詞詞性標註
- C#漢字轉漢語拼音C#
- 英語背單詞專案(資料庫中是4級單詞)資料庫
- 影像語義分割資料增強——imgaug(二)
- 漢語注音符號符號
- 語法與語義
- 天貓精靈的自定義語音技能建立流程
- 英語單詞_英語二_2011
- 大學生英語詞彙分級軟體
- 資料定義語言(DDL)
- 使用PHP實現詞法分析與自定義語言PHP詞法分析
- 大資料---單詞釋義大資料
- pytorch載入語音類自定義資料集PyTorch
- 語義網路術語
- 漢語言處理包HanLP1.6.4釋出,優化新詞發現HanLP優化
- MySQL資料庫中SQL語句分幾類?MySql資料庫
- HTML基本語法和語義HTML
- 深度瞭解語音識別之發音詞典及語音資料採集標註
- 資料分析與挖掘-挖掘建模
- NLA自然語言分析,讓資料分析更智慧!