HanLP-實詞分詞器詳解
在進行文字分類(非情感分類)時,我們經常只保留實詞(名、動、形)等詞,為了文字分類的分詞方便, HanLP專門提供了實詞分詞器類NotionalTokenizer,同時在分類資料集載入處理時,預設使用了NotionalTokenizer分詞器。
在 HanLPJava版程式碼庫中可以檢視下邊的檔案中的函式
1、 AbstractDataSet.java檔案中的AbstractDataSet方法
2、 HanLPTokenizer.java檔案中的segment方法
3、 NotionalTokenizer.java檔案中的segment方法
簡單說明一下 NotionalTokenizer類實現
1、 初始化了一個維特比分詞器例項(最短路徑方法,用 viterbi思想實現)
2、 用 CoreStopWordDictionary類的shouldInclude方法對維特比分詞結果進行過濾,該方法只保留屬於名詞、動詞、副詞、形容詞並且不在停用詞表中的詞。詳見CoreStopWordDictionary.java檔案中的shouldInclude(Term)方法。
對於 PyHanLP的呼叫方法可以參考
# # -*- coding:utf-8 -*-
# Author:wancong
# Date: 2018-04-30
from pyhanlp import *
def demo_notional_tokenizer():
""" 演示自動去除停用詞、自動斷句的分詞器
>>> demo_notional_tokenizer()
[小區/n, 居民/n, 反對/v, 餵養/v, 流浪貓/nz, 居民/n, 贊成/v, 餵養/v, 小寶貝/nz]
[小區/n, 居民/n, 反對/v, 餵養/v, 流浪貓/nz]
[居民/n, 贊成/v, 餵養/v, 小寶貝/nz]
"""
Term =JClass("com.hankcs.hanlp.seg.common.Term")
NotionalTokenizer = JClass("com.hankcs.hanlp.tokenizer.NotionalTokenizer")
text = "小區居民有的反對餵養流浪貓,而有的居民卻贊成餵養這些小寶貝"
print(NotionalTokenizer.segment(text))
for sentence in NotionalTokenizer.seg2sentence(text):
print(sentence)
if __name__ == "__main__":
import doctest
doctest.testmod(verbose=True)
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2645676/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- HanLP分詞命名實體提取詳解HanLP分詞
- Hanlp分詞之CRF中文詞法分析詳解HanLP分詞CRF詞法分析
- #Elasticsearch中文分詞器 #IK分詞器 @FDDLCElasticsearch中文分詞
- HanLP-停用詞表的使用示例HanLP
- ElasticSearch中使用ik分詞器進行實現分詞操作Elasticsearch分詞
- IK 分詞器分詞
- 剖析分詞器分詞
- Elasticsearch 分詞器Elasticsearch分詞
- elasticsearch之ik分詞器和自定義詞庫實現Elasticsearch分詞
- MapReduce實現與自定義詞典檔案基於hanLP的中文分詞詳解HanLP中文分詞
- Elasticsearch IK分詞器Elasticsearch分詞
- Elasticsearch整合HanLP分詞器ElasticsearchHanLP分詞
- IK 分詞器外掛分詞
- ElasticSearch之ICU分詞器Elasticsearch分詞
- 分詞分詞
- 簡單有效的多標準中文分詞詳解中文分詞
- 62_索引管理_快速上機動手實戰修改分詞器以及定製自己的分詞器索引分詞
- 中文分詞器,整理自Ai中文分詞AI
- HanLP分詞工具中的ViterbiSegment分詞流程HanLP分詞Viterbi
- hanlp原始碼解析之中文分詞演算法詳解HanLP原始碼中文分詞演算法
- 使用cjieba(結巴分詞庫)實現php擴充套件中文分詞JiebaPHP套件中文分詞
- 分詞-1分詞
- python分詞和生成詞雲圖Python分詞
- pyhanlp 停用詞與使用者自定義詞典功能詳解HanLP
- elastcisearch中文分詞器各個版本AST中文分詞
- python使用jieba實現中文文件分詞和去停用詞PythonJieba分詞
- 動詞過去式過去分詞分詞
- 古詩詞 中文 分詞 自動化分詞
- jieba 詞性標註 & 並行分詞Jieba詞性標註並行分詞
- 3.3 以太坊核心詞彙詳解
- JavaScript物件導向名詞詳解JavaScript物件
- 使用Docker快速安裝部署ES和Kibana並配置IK中文分詞器以及自定義分詞擴充詞庫Docker中文分詞
- python 實現中文分詞統計Python中文分詞
- 單詞劃分
- HanLP分類模組的分詞器介紹HanLP分詞
- 分詞工具Hanlp基於感知機的中文分詞框架HanLP中文分詞框架
- 中文分詞原理及常用Python中文分詞庫介紹中文分詞Python
- elasticsearch教程--中文分詞器作用和使用Elasticsearch中文分詞