解決NLTK包下載出錯問題及NLP環境測試

weixin_33890499發表於2016-10-26

Python 2.7
IDE Pycharm 5.0.3
NLTK 3.2.1


前言

需要用到自然語言處理了,安裝除錯過程記錄一下,省的下次再找


【注意:軟體安裝需求:Python、NLTK、NLTK-Data必須安裝,NumPy和Matplotlin推薦安裝,NetworkX和Prover9可選安裝】

安裝詳細過程可見Python與自然語言處理(一)搭建環境總結的很好,我這裡簡要說明和補充:


安裝Python

滾粗,自己百度


安裝NLTK

Pycharm自帶NLTK包,如果沒有,請在cmd視窗輸入命令:pip install nltk,下的應該蠻快的。不知道pip是什麼?滾粗!


安裝NLTK-Data

你可以作死的嘗試


>>>import nltk
>>>nltk.download()

先點選Refresh,重新整理下,之後選中all-corpora點選左下角下載就好,至於路徑

要麼在C盤中,要麼在Python的根目錄下!C盤根目錄最靠譜!

2671133-175d3e049d5193d3
這裡寫圖片描述

這是官方正統下載方式,但是肯定會出錯的!不僅下的慢,而且下一半就出錯!老紙試了三次!

這裡才是正確的下載方式:最好的方法是用使用@V_can打包好的的包網盤下載下載地址1:雲盤密碼znx7,下來的包nltk_data.zip 解壓到C盤根目錄下,這樣是最保險的,防止找不到包。下載地址2:雲盤密碼4cp3


NLTK測試

測試環境是否安裝好請按照下列步驟(全部在python console中完成,就是輸入一行輸出一行的那種IDE):

In[4]:from nltk.book import *
# 只輸入import nltk 會出錯的,但卻有很多部落格上都這麼寫,我也母雞

之後會出現如下顯示:

*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908

繼續測試輸入:

In[5]:text1

會輸出:

Out[5]: 
<Text: Moby Dick by Herman Melville 1851>

再測試輸入:

In[6]: text1.concordance("monstrous")

輸出:

Displaying 11 of 11 matches:
ong the former , one was of a most monstrous size . ... 

ok,這裡就演示那麼多,到此,NLP的環境就裝好了,除錯完畢,可以用於自己的實驗了。


總結

寫的東西不重複,實踐過正確,有重點,對別人有幫助,這個才是最重要的。


致謝

@monkey131499--Python與自然語言處理(一)搭建環境
@V_can--Python與自然語言處理_第一期_NLTK入門之環境搭建

相關文章