推薦6個高效的語言處理Python庫

小咖啡111發表於2019-08-12

  1.NLTK

  NLTK是構建Python程式以處理人類語言資料的領先平臺。它提供了易於使用的介面,以及用於分類、標記化、詞幹化、標記、分析和語義推理的一套文字處理庫。用於工業強度NLP庫的包裝器。

  專案地址:


  2.Pattern

  Pattern是Python程式語言的Web挖掘模組。它多有用於資料探勘、自然語言處理、機器學習網路分析和視覺化。

  專案地址:


  3.Jieba

  “結巴”中文分詞:做最好的 Python 中文分片語件。精確模式,試圖將句子最精確地切開,適合文字分析;全模式,把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義;搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。

  專案地址:


  4.TextBlob

  TextBlob是一個用於處理文字資料的Python庫。它提供了一個簡單的API用於常見的自然語言處理(NLP)任務,如詞性標註,名詞短語提取,情感分析,分類,翻譯等。

  專案地址: http://textblob.readthedocs.io/en/dev/


  5.SnowNLP

  SnowNLP是一個python寫的類庫,可以方便的處理中文文字內容,是受到了TextBlob的啟發而寫的,由於現在大部分的自然語言處理庫基本都是針對英文的,於是寫了一個方便處理中文的類庫,並且和TextBlob不同的是,這裡沒有用NLTK,所有的演算法都是自己實現的,並且自帶了一些訓練好的字典。注意本程式都是處理的unicode編碼,所以使用時請自行decode成unicode。

  專案地址:


  6.TextGrocery

  TextGrocery是一個基於LibLinear和結巴分詞的短文字分類工具,特點是高效易用,同時支援中文和英文語料。

  專案地址:


  最後,為了更好的幫助大家學習Python,小編為大家準備了Python影片教程

  

      獲取方式: Python學習交流群: 519489681   備註: 小白


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31560357/viewspace-2653367/,如需轉載,請註明出處,否則將追究法律責任。

相關文章