目前常用的自然語言處理開源專案/開發包大彙總
中文主要有 : NLTK , FoolNLTK , HanLP ( java 版本), pyhanlp ( python 版本), Ansj , THULAC ,結巴分詞, FNLP ,哈工大 LTP ,中科院 ICTCLAS 分詞, GATE , SnowNLP ,東北大學 NiuTrans , NLPIR ,;
英文主要有 : NLTK , Genism , TextBlob , Stanford NLP , Spacy 。英文的開源 NLP 工具主要參見 StackoverFlow-java or python for nlp
相關問題 & 文章:
( 1 )如何用 Python 中的 NLTK 對中文進行分析和處理? 這個問題下的回答也詳說了其他的語音處理包
( 2 )中文分詞專案總結
詳細介紹
HanLP : HanLP 是由一系列模型與演算法組成的 Java 工具包,目標是普及自然語言處理在生產環境中的應用。 HanLP 具備功能完善、效能高效、架構清晰、語料時新、可自定義的特點。
開發語言: Java
網址: hankcs/HanLP
開發機構:大快搜尋
協議: Apache-2.0
功能:非常多,主要有中文分詞,詞性標註,命名實體識別,關鍵詞提取,自動摘要,短語提取,拼音轉換,簡繁轉換,文字推薦,依存句法分析,文字分類:情感分析, word2vec ,語料庫工具
活躍度: github star 超過 4 千 5 ,近期( 201711 )仍在保持更新
Ansj 中文分詞 :一個基於 n-Gram+CRF+HMM 的中文分詞的 java 實現 .
開發語言: Java
網址: NLPchina/ansj_seg
協議: Apache License 2.0
功能:中文分詞 . 中文姓名識別 . 使用者自定義詞典 , 關鍵字提取,自動摘要,關鍵字標記
效能:分詞速度達到每秒鐘大約 200 萬字左右( mac air 下測試),準確率能達到 96% 以上
活躍度: github star 數量超過 3500 ,近期( 2017.11 )仍在保持更新
THULAC :一個高效的中文詞法分析工具包,具有中文分詞和詞性標註功能。
開發語言:
網址: THULAC :一個高效的中文詞法分析工具包
開發機構:清華大學自然語言處理與社會人文計算實驗室
協議:研究目的免費開放原始碼,商用目的需洽談許可證
功能:中文分詞和詞性標註
感謝石墨使用者 @hain 的補充
Synonyms : 中文近義詞工具包
開發語言: Python
網址:
開發機構:個人
協議: MIT
功能:獲取近義詞集合,句子相似度計算
效能:見網站
活躍度:~ 1k Star
結巴分詞: Python 中文分片語件
開發語言: Python
網址: fxsjy/jieba
開發機構:
協議: MIT 授權協議
功能:中文分詞
FNLP : FNLP 主要是為中文自然語言處理而開發的工具包,也包含為實現這些任務的機器學習演算法和資料集。
開發語言:
網址: FudanNLP/fnlp
開發機構:復旦
協議: LGPL3.0 許可證。
功能:資訊檢索: 文字分類 新聞聚類;中文處理: 中文分詞 詞性標註 實體名識別 關鍵詞抽取 依存句法分析 時間短語識別;結構化學習: 線上學習 層次分類 聚類
Genism : Gensim is a Python library for topic modelling, document indexing and similarity retrieval with large corpora. Target audience is the natural language processing (NLP) and information retrieval (IR) community.
開發語言: Python
網址: RaRe-Technologies/gensim
協議: LGPL-2.1 license
活躍度: github star 數超過五千,近期( 201711 )仍在更新
TextBlob : Simple, Pythonic, text processing--Sentiment analysis, part-of-speech tagging, noun phrase extraction, translation, and more.
開發語言: Python
網址: sloria/TextBlob
功能:情感分析、詞性標註、翻譯等
活躍度: github star 超過 4 千,近期( 201711 )仍在更新
Spacy : spaCy is a library for advanced Natural Language Processing in Python and Cython. It's built on the very latest research, and was designed from day one to be used in real products. spaCy comes with pre-trained statistical models and word vectors, and currently supports tokenization for 20+ languages. It features the fastest syntactic parser in the world, convolutional neural network models for tagging, parsing and named entity recognition and easy deep learning integration. It's commercial open-source software, released under the MIT license.
開發語言: python
協議: MIT 協議
功能: 功能很多,如 tagging, parsing and named entity recognition 等
效能:功能強大,支援二十多種語言(然而目前還不支援中文,可以閱讀官方文件瞭解更多資訊 ),號稱是工業級強度的 Python NLP 工具包,區別於學術性質更濃的 Python NLTK
活躍度: star 超過 7 千,近期( 201711 )仍非常活躍
作者:鑑津 Jackie
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2221566/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 12 種自然語言處理的開源工具自然語言處理開源工具
- 人工智慧大模型之開源大語言模型彙總(國內外開源專案模型彙總)人工智慧大模型
- 自然語言處理常用資源筆記分享自然語言處理筆記
- 我的2017年文章彙總——自然語言處理篇自然語言處理
- 「NLP」一文彙總自然語言處理主要研究方向自然語言處理
- GitHub專案:自然語言處理專案的相關乾貨整理Github自然語言處理
- hanlp自然語言處理包的基本使用--pythonHanLP自然語言處理Python
- Go常用工具和開源專案彙總Go
- go語言教程哪裡有?go 語言優秀開源專案彙總Go
- 有趣的自然語言處理資源集錦自然語言處理
- 自然語言處理之:搭建基於HanLP的開發環境自然語言處理HanLP開發環境
- 2023nlp影片教程大全 NLP自然語言處理教程 自然語言處理NLP從入門到專案實戰自然語言處理
- Rill:Go語言中併發+事務的批處理開源專案Go
- 語義理解和研究資源是自然語言處理的兩大難題自然語言處理
- Vue經典開源專案彙總Vue
- 如何編譯執行HanLP自然語言處理包編譯HanLP自然語言處理
- 自然語言處理(NLP)系列(一)——自然語言理解(NLU)自然語言處理
- 探索自然語言處理:語言模型的發展與應用自然語言處理模型
- 自然語言處理NLP(四)自然語言處理
- 自然語言處理(NLP)概述自然語言處理
- HanLP 自然語言處理 for nodejsHanLP自然語言處理NodeJS
- 自然語言處理中的分詞問題總結自然語言處理分詞
- 自然語言處理的最佳實踐自然語言處理
- 2018年最強自然語言模型 Google BERT 資源彙總模型Go
- Android常用開源庫整理彙總Android
- [譯] 自然語言處理真是有趣!自然語言處理
- 自然語言處理:分詞方法自然語言處理分詞
- 牛津大學xDeepMind自然語言處理 第13講 語言模型(3)自然語言處理模型
- 優秀的 Spring Boot 語言開源專案Spring Boot
- hanlp自然語言處理包的人名識別程式碼解析HanLP自然語言處理
- 遊戲開發中的多語言處理遊戲開發
- Vue.js經典開源專案彙總Vue.js
- 最全面的vue開源專案庫彙總Vue
- 自然語言處理中的語言模型預訓練方法自然語言處理模型
- 自然語言處理NLP快速入門自然語言處理
- 配置Hanlp自然語言處理進階HanLP自然語言處理
- 自然語言處理之jieba分詞自然語言處理Jieba分詞
- 人工智慧 (06) 自然語言處理人工智慧自然語言處理