中文分詞演算法工具hanlp原始碼解析
詞圖
詞圖指的是句子中所有詞可能構成的圖。如果一個詞 A的下一個詞可能是B的話,那麼A和B之間具有一條路徑E(A,B)。一個詞可能有多個後續,同時也可能有多個前驅,它們構成的圖我稱作詞圖。
需要稀疏 2維矩陣模型,以一個詞的起始位置作為行,終止位置作為列,可以得到一個二維矩陣。例如:“他說的確實在理”這句話
圖詞的儲存方法:一種是的 DynamicArray法,一種是快速offset法。Hanlp程式碼中採用的是第二種方法。
1、DynamicArray(二維陣列)法
在詞圖中,行和列的關係: col為n 的列中所有詞可以與row為n 的所有行中的詞進行組合。例如“的確”這個詞,它的col =5,需要和它計算平滑值的有兩個,分別是row =5的兩個詞:“實”和“實在”。但是在遍歷和插入的時候,需要一個個比較col和row的關係,複雜度是O(N)。
2、 快速 offset
一個一維陣列,每個元素是一個單連結串列 “的確”的行號是4,長度是2,4+2=6,於是第六行的兩個詞“實/實在”就是“的確”的後續。
同時這種方法速度非常快,插入和查詢的時間都是 O(1)。
Hanlp核心詞典:
最短路徑演算法 —viterbi(動態規劃路徑)
Frequency:核心詞典中的詞頻
nTwoWordsFreq:共現詞頻
intMAX_FREQUENCY= 25146057
double dTemp =(double) 1 / MAX_FREQUENCY +0.00001
dSmoothingPara =0.1
Viterbi最短路徑有向圖
1、計算過程從上至下,根據計算出的權重值變更前驅結點,保證前驅結點唯一(動態規劃路徑)
2、計算結束後,從最後一個結點開始取出term,依次取出該結點的前驅結點即可 分詞結果:理,在,確實,的,說,他
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2638241/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- hanlp原始碼解析之中文分詞演算法詳解HanLP原始碼中文分詞演算法
- 分詞工具Hanlp基於感知機的中文分詞框架HanLP中文分詞框架
- HanLP中文分詞Lucene外掛HanLP中文分詞
- HanLP分詞工具中的ViterbiSegment分詞流程HanLP分詞Viterbi
- java分詞工具hanlp介紹Java分詞HanLP
- Hanlp分詞之CRF中文詞法分析詳解HanLP分詞CRF詞法分析
- Ansj與hanlp分詞工具對比HanLP分詞
- 基於 HanLP 的 ES 中文分詞外掛HanLP中文分詞
- Hanlp在java中文分詞中的使用介紹HanLPJava中文分詞
- Hanlp分詞例項:Java實現TFIDF演算法HanLP分詞Java演算法
- Elasticsearch整合HanLP分詞器ElasticsearchHanLP分詞
- hanlp中文智慧分詞自動識別文字提取例項HanLP分詞
- HanLP-實詞分詞器詳解HanLP分詞
- HanLP程式碼與詞典分離方案與流程HanLP
- 史上最全中文分詞工具整理中文分詞
- Hanlp等七種優秀的開源中文分詞庫推薦HanLP中文分詞
- MapReduce實現與自定義詞典檔案基於hanLP的中文分詞詳解HanLP中文分詞
- 中文分詞工具之基於字標註法的分詞中文分詞
- python呼叫hanlp分詞包手記PythonHanLP分詞
- 自然語言處理工具HanLP-N最短路徑分詞自然語言處理HanLP分詞
- 中文地址智慧分詞演算法-Java版分詞演算法Java
- HanLP分類模組的分詞器介紹HanLP分詞
- HanLP分詞命名實體提取詳解HanLP分詞
- 基於hanlp的es分詞外掛HanLP分詞
- HanLP二元核心詞典詳細解析HanLP
- Hanlp中使用純JAVA實現CRF分詞HanLPJavaCRF分詞
- Spring MVCD框架中呼叫HanLP分詞的方法SpringMVC框架HanLP分詞
- Spark中分散式使用HanLP(1.7.0)分詞示例Spark分散式HanLP分詞
- 中文分詞原理及常用Python中文分詞庫介紹中文分詞Python
- 自然語言處理工具hanlp關鍵詞提取圖解TextRank演算法自然語言處理HanLP圖解演算法
- HanLP 關鍵詞提取演算法分析詳解HanLP演算法
- #Elasticsearch中文分詞器 #IK分詞器 @FDDLCElasticsearch中文分詞
- NLP之中文分詞中文分詞
- 中文分詞技術中文分詞
- java版JieBa分詞原始碼走讀JavaJieba分詞原始碼
- 北大開源了中文分詞工具包:準確率遠超THULAC、結巴分詞!中文分詞
- 北大開源全新中文分詞工具包:準確率遠超THULAC、結巴分詞中文分詞
- Shading-jdbc原始碼分析-sql詞法解析JDBC原始碼SQL