python呼叫hanlp分詞包手記

adnb34g發表於2018-12-26

python呼叫hanlp分詞包手記

 

Hanlp作為一款重要的分詞工具,本月初的時候看到大快搜尋釋出了hanlp的1.7版本,新增了文字聚類、流水線分詞等功能。關於hanlp1.7版本的新功能,後面有使用的到時候在給大家分享。本篇分享一個在python裡呼叫hanlp分詞包的過程文章,供需要的朋友參考學習交流!以下為文章內容:

 

1.在python下安裝pyhanlp

sudo pip install pyhanlp

詳見 pyhanlp官方文件

 

2.pyhanlp的一些使用方法

1)Hanlp.segment的使用

from pyhanlp import *

print HanLP.segment("今天開心了嗎?")

#輸出:[今天/t, 開心/a, 了/ule, 嗎/y, ?/w]

(2) 其它 API函式的使用。

pyhanlp裡已經含有以下這些功能了,可以直接呼叫)

1  - # API列表

2 CustomDictionary= LazyLoadingJClass( 'com.hankcs.hanlp.dictionary.CustomDictionary' )

3 HanLP = SafeJClass( 'com.hankcs.hanlp.HanLP' )

4 HanLP.Config = JClass( 'com.hankcs.hanlp.HanLP$Config' )

5 PerceptronLexicalAnalyzer= SafeJClass( 'com.hankcs.hanlp.model.perceptron.PerceptronLexicalAnalyzer' )

6 DoubleArrayTrieSegment = SafeJClass( 'com.hankcs.hanlp.seg.Other.DoubleArrayTrieSegment' )

7 AhoCorasickDoubleArrayTrie = SafeJClass( 'com.hankcs.hanlp.collection.AhoCorasick.AhoCorasickDoubleArrayTrie' )

8 IOUtil = SafeJClass( 'com.hankcs.hanlp.corpus.io.IOUtil' )

9 TraditionalChineseTokenizer=SafeJClass( 'com.hankcs.hanlp.tokenizer.TraditionalChineseTokenizer' )

 

呼叫方法

analyzer=PerceptronLexicalAnalyzer()

a =analyzer.analyze("今天開心了嗎?")

print a

 

3.其它更多的功能的實現。

①  比如繁體分詞,自動生成摘要這些 hanlp能實現的,但不在以上API函式裡面的,我們可以通過以下方法。

②  首先要在 “../pyhanlp/init.py”pycharm檔案下通過jclass語句引入更深類路徑。比如(我引入的是中文繁體分詞這個API函式)

③  TraditionalChineseTokenizer=SafeJClass('com.hankcs.hanlp.tokenizer.TraditionalChineseTokenizer')

④  然後就可以直接呼叫了,真的超級棒。

⑤  print TraditionalChineseTokenizer.segment('三華裔獲得傑出青年獎‘)

⑥  #輸出:[三/m, 華裔/n, 獲得/v, 傑出青年/nz, 獎/n]

⑦  -其它更多的API函式的路徑請參考java原始碼。

---------------------

作者:小傻子 kkk

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2286462/,如需轉載,請註明出處,否則將追究法律責任。

相關文章