Python 自然語言處理(NLP)工具彙總
- 簡介:
NLTK 在使用 Python 處理自然語言的工具中處於領先的地位。它提供了 WordNet 這種方便處理詞彙資源的介面,以及分類、分詞、詞幹提取、標註、語法分析、語義推理等類庫。
- 網站:
- 安裝:
安裝 NLTK:
[root@master ~]# pip install nltk
- 注意事項:
- 簡介:
* 資料探勘:Web服務介面(Google,Twitter,Wikipedia),網路爬蟲,HTML DOM 解析。
* 自然語言處理:POS詞性標註,n-gram搜尋,情感分析,詞雲。
* 機器學習:向量空間模型(VSM),聚類,分類(KNN,SVM,Perceptron)。
* 網路分析:圖中心和視覺化。
- 網站:
- 安裝:
[root@master ~]# pip install pattern
TextBlob 是基於NLTK和pattern的工具, 有兩者的特性。如下:
- 名詞短語提前
- POS標註
- 情感分析
- 分類 (Naive Bayes, Decision Tree)
- 谷歌翻譯
- 分詞和分句
- 詞頻和短語頻率統計
- 句法解析
- n-grams模型
- 詞型轉換和詞幹提取
- 拼寫校正
- 通過詞雲整合新增新的語言和模型
TextBlob: Simplified Text Processing
- 安裝:
[root@master ~]# pip install -U textblob
- 簡介:
Gensim 是一個 Python 庫,用於對大型語料庫進行主題建模、檔案索引、相似度檢索等。它可以處理大於記憶體的輸入資料。作者說它是“純文字上無監督的語義建模最健壯、高效、易用的軟體。”
- 網站:
GitHub - piskvorky/gensim: Topic Modelling for Humans
- 安裝:
[root@master ~]# pip install -U gensim
- 簡介:
它的全稱是:Python 自然語言處理庫(Python Natural Language Processing Library,音發作: pineapple) 是一個用於自然語言處理任務庫。它集合了各種獨立或鬆散互相關的,那些常見的、不常見的、對NLP 任務有用的模組。PyNLPI 可以用來處理 N 元搜尋,計算頻率表和分佈,建立語言模型。它還可以處理向優先佇列這種更加複雜的資料結構,或者像 Beam 搜尋這種更加複雜的演算法。
- 網站:
- 安裝:
[root@master pynlpl-master]# python install
- 簡介:
這是一個商業的開源軟體。結合了Python 和Cython 優異的 NLP 工具。是快速的,最先進的自然語言處理工具。
- 網站:
- 安裝:
[root@master pynlpl-master]# pip install spacy
- 簡介:
Polyglot 支援大規模多語言應用程式的處理。它支援165種語言的分詞,196中語言的辨識,40種語言的專有名詞識別,16種語言的詞性標註,136種語言的情感分析,137種語言的嵌入,135種語言的形態分析,以及69種語言的翻譯。特性如下:
Tokenization (165 Languages)
Language detection (196 Languages)
Named Entity Recognition (40 Languages)
Part of Speech Tagging (16 Languages)
Sentiment Analysis (136 Languages)
Word Embeddings (137 Languages)
Morphological analysis (135 Languages)
Transliteration (69 Languages)
- 網站:
- 安裝:
[root@master pynlpl-master]# pip install polyglot
- 簡介:
MontyLingua 是一個免費的、功能強大的、端到端的英文處理工具。在 MontyLingua 輸入原始英文文字 ,輸出就會得到這段文字的語義解釋。它適用於資訊檢索和提取,請求處理,問答系統。從英文文字中,它能提取出主動賓元組,形容詞、名詞和動詞短語,人名、地名、事件,日期和時間等語義資訊。
- 網站:
- 安裝:
The webservice runs on port 8001 at /service by default. For parameters etc see the NIF spec.
Therefore you can curl your query like this
curl “http://localhost:8001/service?nif=true&input-type=text&input=This%20is%20a%20city%20called%20Berlin.”
or simply use your browser to query the target.
But this method is mainly for debugging purposes and supports only hardcoded options.
BLLIP Parser
- 簡介:
BLLIP Parser(也叫做 Charniak-Johnson parser)是一個整合了生成成分分析器和最大熵排序的統計自然語言分析器。它包括命令列和python介面。
- 網站:
- 安裝:
[root@master pynlpl-master]# pip install --user bllipparser
- 簡介:
Quepy 是一個 Python 框架,提供了將自然語言問題轉換成為資料庫查詢語言中的查詢。它可以方便地自定義自然語言中不同型別的問題和資料庫查詢。所以,通過 Quepy,僅僅修改幾行程式碼,就可以構建你自己的自然語言查詢資料庫系統。
- 網站:
GitHub - machinalis/quepy: A python framework to transform natural language questions to queries in a database query language.
Quepy: A Python framework to transform natural language questions to queries.
- 安裝
[root@master pynlpl-master]# pip install quepy
- 簡介:
MBSP is a text analysis system based on the TiMBL and MBT memory based learning applications developed at CLiPS and ILK. It provides tools for Tokenization and Sentence Splitting, Part of Speech Tagging, Chunking, Lemmatization, Relation Finding and Prepositional Phrase Attachment.
The general English version of MBSP has been trained on data from the Wall Street Journal corpus.
- 網站:
- 安裝:
[root@master MBSP]# python install
