語義挖掘:靈玖大資料漢語智慧分詞

ljrj123發表於2016-11-17

  自然語言處理(NLP,Natural Language Processing)是一個資訊時代最重要的技術之一,簡單來講,就是讓計算機能夠理解人類語言的一種技術。在其中,分詞技術是一種比較基礎的模組,分詞的意義非常大,在中文中,單字作為最基本的語義單位,雖然也有自己的意義,但表意能力較差,意義較分散,而詞的表意能力更強,能更加準確的描述一個事物,因此在自然語言處理中,通常情況下詞(包括單字成詞)是最基本的處理單位。

  漢語詞技術對中文搜尋引擎的查準率及查全率有重大影響。漢語詞法分析中介軟體能對漢語語言進行拆分處理,是中文資訊處理必備的核心部件。靈玖綜合了各家所長經過多年的努力研發裡靈玖漢語智慧分詞系統,分詞準確率接近99%,具備準確率高、速度快、可適應性強等優勢;特色功能包括:切分粒度可調整,融合20餘部行業專有詞典,支援使用者自定義詞典等。

  在具體的應用上,比如在常用的搜尋引擎中,term如果是詞粒度的話,不僅能夠減少每個term的倒排列表長度,提升系統效能,並且召回的結果相關性高更準確。比如搜尋query“的確”,如果是單字切分的話,則有可能召回“你講的確實在理”這樣的doc。靈玖漢語智慧分詞系統是採用條件隨機場(Conditional Random Field,簡稱CRF)模型進行分詞。

  條件隨機域(場)(conditional random fields,簡稱 CRF,或CRFs),是一種鑑別式機率模型,是隨機場的一種,常用於標註或分析序列資料,如自然語言文字或是生物序列。 因為其強大的表達能力和出色的效能,得到了廣泛的應用。從最通用角度來看,CRF本質上是給定了觀察值集合(observations)的馬爾可夫隨機場。在這裡,我們直接從最通用的角度來認識和理解CRF,最後可以看到,線性CRF和所謂的高階CRF,都是某種特定結構的CRF。

  1. 隨機場

  簡單地講,隨機場可以看成是一組隨機變數的集合(這組隨機變數對應同一個樣本空間)。當然,這些隨機變數之間可能有依賴關係,一般來說,也只有當這些變數之間有依賴關係的時候,我們將其單獨拿出來看成一個隨機場才有實際意義。

  2. Markov隨機場(MRF)

  這是加了Markov性質限制的隨機場。首先,一個Markov隨機場對應一個無向圖。這個無向圖上的每一個節點對應一個隨機變數,節點之間的邊表示節點對應的隨機變數之間有機率依賴關係。因此,Markov隨機場的結構本質上反應了我們的先驗知識——哪些變數之間有依賴關係需要考慮,而哪些可以忽略。Markov性質是指,對Markov隨機場中的任何一個隨機變數,給定場中其他所有變數下該變數的分佈,等同於給定場中該變數的鄰居節點下該變數的分佈。這讓人立刻聯想到馬式鏈的定義:它們都體現了一個思想:離當前因素比較遙遠(這個遙遠要根據具體情況自己定義)的因素對當前因素的性質影響不大。

  3.從Markov隨機場到CRF

  現在,如果給定的MRF中每個隨機變數下面還有觀察值,我們要確定的是給定觀察集合下,這個MRF的分佈,也就是條件分佈,那麼這個MRF就稱為CRF(Conditional Random Field)。

  4.訓練

  透過一組樣本,我們希望能夠得到CRF對應的分佈形式,並且用這種分佈形式對測試樣本進行分類。也就是測試樣本中每個隨機變數的取值。

  在實際應用中,clique-potential主要由使用者自己定義的特徵函式組成,即使用者自己定義一組函式,這些函式被認為是可以用來幫助描述隨機變數分佈的。而這些特徵函式的強弱以及正向、負向是透過訓練得到的一組權重來表達的,這樣,實際應用中我們需要給出特徵函式以及權重的共享關係(不同的特徵函式可能共享同一個權重),而clicque-potential本質上成了對應特徵函式的線性組合。這些權重就成了CRF的引數。因此,本質上,圖的結構是使用者透過給出特徵函式的定義確定的(例如,只有一維特徵函式,對應的圖上是沒有邊的)還有,CRF的分佈成了對數線性形式。

  5.推斷

  如前所述,訓練的過程中我們需要機率推斷,分類的時候我們需要找出機率最大的一組解,這都涉及到推斷。這個問題本質上屬於圖模型上的機率推斷問題。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31386431/viewspace-2128628/,如需轉載,請註明出處,否則將追究法律責任。

相關文章