目前常用的自然語言處理開源專案/開發包大彙總

adnb34g發表於2018-11-26


中文主要有 NLTK FoolNLTK HanLP java 版本), pyhanlp python 版本), Ansj THULAC ,結巴分詞, FNLP ,哈工大 LTP ,中科院 ICTCLAS 分詞, GATE SnowNLP ,東北大學 NiuTrans NLPIR ,;

英文主要有 NLTK Genism TextBlob Stanford NLP Spacy 。英文的開源 NLP 工具主要參見 StackoverFlow-java or python for nlp

相關問題 & 文章:

1 )如何用 Python 中的 NLTK 對中文進行分析和處理? 這個問題下的回答也詳說了其他的語音處理包

2 )中文分詞專案總結

詳細介紹

HanLP HanLP 是由一系列模型與演算法組成的 Java 工具包,目標是普及自然語言處理在生產環境中的應用。 HanLP 具備功能完善、效能高效、架構清晰、語料時新、可自定義的特點。

開發語言: Java

網址: hankcs/HanLP

開發機構:大快搜尋

協議: Apache-2.0

功能:非常多,主要有中文分詞,詞性標註,命名實體識別,關鍵詞提取,自動摘要,短語提取,拼音轉換,簡繁轉換,文字推薦,依存句法分析,文字分類:情感分析, word2vec ,語料庫工具

活躍度: github star 超過 4 5 ,近期( 201711 )仍在保持更新

 

Ansj 中文分詞 :一個基於 n-Gram+CRF+HMM 的中文分詞的 java 實現 .

開發語言: Java

網址: NLPchina/ansj_seg

協議: Apache License 2.0

功能:中文分詞 . 中文姓名識別 . 使用者自定義詞典 , 關鍵字提取,自動摘要,關鍵字標記

效能:分詞速度達到每秒鐘大約 200 萬字左右( mac air 下測試),準確率能達到 96% 以上

活躍度: github star 數量超過 3500 ,近期( 2017.11 )仍在保持更新

 

THULAC :一個高效的中文詞法分析工具包,具有中文分詞和詞性標註功能。

開發語言:

網址: THULAC :一個高效的中文詞法分析工具包

開發機構:清華大學自然語言處理與社會人文計算實驗室

協議:研究目的免費開放原始碼,商用目的需洽談許可證

功能:中文分詞和詞性標註

 

感謝石墨使用者 @hain 的補充

Synonyms : 中文近義詞工具包

開發語言: Python

網址:

開發機構:個人

協議: MIT

功能:獲取近義詞集合,句子相似度計算

效能:見網站

活躍度:~ 1k Star

 

結巴分詞: Python 中文分片語件

開發語言: Python

網址: fxsjy/jieba

開發機構:

協議: MIT 授權協議

功能:中文分詞

FNLP FNLP 主要是為中文自然語言處理而開發的工具包,也包含為實現這些任務的機器學習演算法和資料集。

開發語言:

網址: FudanNLP/fnlp

開發機構:復旦

協議: LGPL3.0 許可證。

功能:資訊檢索: 文字分類 新聞聚類;中文處理: 中文分詞 詞性標註 實體名識別 關鍵詞抽取 依存句法分析 時間短語識別;結構化學習: 線上學習 層次分類 聚類

 

Genism Gensim is a Python library for topic modelling, document indexing and similarity retrieval with large corpora. Target audience is the natural language processing (NLP) and information retrieval (IR) community.

開發語言: Python

網址: RaRe-Technologies/gensim

協議: LGPL-2.1 license

活躍度: github star 數超過五千,近期( 201711 )仍在更新

 

TextBlob Simple, Pythonic, text processing--Sentiment analysis, part-of-speech tagging, noun phrase extraction, translation, and more.

開發語言: Python

網址: sloria/TextBlob

功能:情感分析、詞性標註、翻譯等

活躍度: github star 超過 4 千,近期( 201711 )仍在更新

 

Spacy spaCy is a library for advanced Natural Language Processing in Python and Cython. It's built on the very latest research, and was designed from day one to be used in real products. spaCy comes with pre-trained statistical models and word vectors, and currently supports tokenization for 20+ languages. It features the fastest syntactic parser in the world, convolutional neural network models for tagging, parsing and named entity recognition and easy deep learning integration. It's commercial open-source software, released under the MIT license.

開發語言: python

協議: MIT 協議

功能: 功能很多,如 tagging, parsing and named entity recognition

效能:功能強大,支援二十多種語言(然而目前還不支援中文,可以閱讀官方文件瞭解更多資訊 ),號稱是工業級強度的 Python NLP 工具包,區別於學術性質更濃的 Python NLTK

活躍度: star 超過 7 千,近期( 201711 )仍非常活躍

 

作者:鑑津 Jackie


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2221566/,如需轉載,請註明出處,否則將追究法律責任。

相關文章