語義挖掘:靈玖大資料漢語智慧分詞
自然語言處理(NLP,Natural Language Processing)是一個資訊時代最重要的技術之一,簡單來講,就是讓計算機能夠理解人類語言的一種技術。在其中,分詞技術是一種比較基礎的模組,分詞的意義非常大,在中文中,單字作為最基本的語義單位,雖然也有自己的意義,但表意能力較差,意義較分散,而詞的表意能力更強,能更加準確的描述一個事物,因此在自然語言處理中,通常情況下詞(包括單字成詞)是最基本的處理單位。
漢語詞技術對中文搜尋引擎的查準率及查全率有重大影響。漢語詞法分析中介軟體能對漢語語言進行拆分處理,是中文資訊處理必備的核心部件。靈玖綜合了各家所長經過多年的努力研發裡靈玖漢語智慧分詞系統,分詞準確率接近99%,具備準確率高、速度快、可適應性強等優勢;特色功能包括:切分粒度可調整,融合20餘部行業專有詞典,支援使用者自定義詞典等。
在具體的應用上,比如在常用的搜尋引擎中,term如果是詞粒度的話,不僅能夠減少每個term的倒排列表長度,提升系統效能,並且召回的結果相關性高更準確。比如搜尋query“的確”,如果是單字切分的話,則有可能召回“你講的確實在理”這樣的doc。靈玖漢語智慧分詞系統是採用條件隨機場(Conditional Random Field,簡稱CRF)模型進行分詞。
條件隨機域(場)(conditional random fields,簡稱 CRF,或CRFs),是一種鑑別式機率模型,是隨機場的一種,常用於標註或分析序列資料,如自然語言文字或是生物序列。 因為其強大的表達能力和出色的效能,得到了廣泛的應用。從最通用角度來看,CRF本質上是給定了觀察值集合(observations)的馬爾可夫隨機場。在這裡,我們直接從最通用的角度來認識和理解CRF,最後可以看到,線性CRF和所謂的高階CRF,都是某種特定結構的CRF。
1. 隨機場
簡單地講,隨機場可以看成是一組隨機變數的集合(這組隨機變數對應同一個樣本空間)。當然,這些隨機變數之間可能有依賴關係,一般來說,也只有當這些變數之間有依賴關係的時候,我們將其單獨拿出來看成一個隨機場才有實際意義。
2. Markov隨機場(MRF)
這是加了Markov性質限制的隨機場。首先,一個Markov隨機場對應一個無向圖。這個無向圖上的每一個節點對應一個隨機變數,節點之間的邊表示節點對應的隨機變數之間有機率依賴關係。因此,Markov隨機場的結構本質上反應了我們的先驗知識——哪些變數之間有依賴關係需要考慮,而哪些可以忽略。Markov性質是指,對Markov隨機場中的任何一個隨機變數,給定場中其他所有變數下該變數的分佈,等同於給定場中該變數的鄰居節點下該變數的分佈。這讓人立刻聯想到馬式鏈的定義:它們都體現了一個思想:離當前因素比較遙遠(這個遙遠要根據具體情況自己定義)的因素對當前因素的性質影響不大。
3.從Markov隨機場到CRF
現在,如果給定的MRF中每個隨機變數下面還有觀察值,我們要確定的是給定觀察集合下,這個MRF的分佈,也就是條件分佈,那麼這個MRF就稱為CRF(Conditional Random Field)。
4.訓練
透過一組樣本,我們希望能夠得到CRF對應的分佈形式,並且用這種分佈形式對測試樣本進行分類。也就是測試樣本中每個隨機變數的取值。
在實際應用中,clique-potential主要由使用者自己定義的特徵函式組成,即使用者自己定義一組函式,這些函式被認為是可以用來幫助描述隨機變數分佈的。而這些特徵函式的強弱以及正向、負向是透過訓練得到的一組權重來表達的,這樣,實際應用中我們需要給出特徵函式以及權重的共享關係(不同的特徵函式可能共享同一個權重),而clicque-potential本質上成了對應特徵函式的線性組合。這些權重就成了CRF的引數。因此,本質上,圖的結構是使用者透過給出特徵函式的定義確定的(例如,只有一維特徵函式,對應的圖上是沒有邊的)還有,CRF的分佈成了對數線性形式。
5.推斷
如前所述,訓練的過程中我們需要機率推斷,分類的時候我們需要找出機率最大的一組解,這都涉及到推斷。這個問題本質上屬於圖模型上的機率推斷問題。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31386431/viewspace-2128628/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 語義挖掘:靈玖大資料文字過濾大資料
- 大資料語義分析:靈玖中文分詞的分詞處理大資料中文分詞
- 語義分析發現:靈玖大資料檢索與分詞大資料分詞
- 文字挖掘之語料庫、分詞、詞頻統計分詞
- 使用python進行漢語分詞Python分詞
- NLPIR語義挖掘技術提升大資料處理效果大資料
- 大資料資訊挖掘中文分詞是關鍵大資料中文分詞
- 靈玖軟體NLPIR大資料技術深度挖掘中文自然語言大資料
- 中文分詞研究難點-詞語劃分和語言規範中文分詞
- R語言︱文字挖掘之中文分詞包——Rwordseg包(原理、功能、詳解)R語言中文分詞
- 靈玖大資料在中文語義分析完成新突破大資料
- 文字挖掘的分詞原理分詞
- Java簡單實現漢語詞頻統計Java
- 國內免費漢語語料庫-NLP
- 分享一個自然語言漢語時間語義識別的工具類
- 引言:分詞與語法解析分詞
- 靈玖軟體NlpirParser語義智慧內容過濾
- 常用語義分割資料集
- 是否需要漢語程式語言
- 1.分詞與語法解析分詞
- 自然語言處理:分詞方法自然語言處理分詞
- 資料分析與挖掘 - R語言:貝葉斯分類演算法(案例一)R語言演算法
- 資料分析與挖掘 - R語言:貝葉斯分類演算法(案例二)R語言演算法
- 資料分析與挖掘 - R語言:貝葉斯分類演算法(案例三)R語言演算法
- NLP自然語言處理 jieba中文分詞,關鍵詞提取,詞性標註,並行分詞,起止位置,文字挖掘,NLP WordEmbedding的概念和實現自然語言處理Jieba中文分詞詞性標註並行
- 資料分析與挖掘 - R語言:KNN演算法R語言KNN演算法
- 漢語是最了不起的語言
- NLPIR語義分析系統不斷提高中文分詞準確率中文分詞
- C#漢字轉漢語拼音C#
- 自然語言處理之jieba分詞自然語言處理Jieba分詞
- 資料分析與挖掘 - R語言:多元線性迴歸R語言
- paip.語義分析--分詞--常見的單音節字詞 2_deDuli 單字詞 774個AI分詞
- 漢語注音符號符號
- 中考常見同義詞和同義短語總結
- 詞向量的運用-用詞向量理解片語的含義
- 將使用jieba分詞的語料庫轉化成TFIDF向量Jieba分詞
- 自然語言處理工具pyhanlp分詞與詞性標註自然語言處理HanLP分詞詞性標註
- 日誌挖掘-對於DDL語句的挖掘