Ubuntu下安裝Stanford CoreNLP

roc_guo發表於2022-02-20

Stanford CoreNLP提供了一系列自然語言分析工具。它能夠給出基本的詞形,詞性,不管是公司名還是人名等,格式化的日期,時間,量詞,並且能夠標記句子的結構,語法形式和字詞依賴,指明那些名字指向同樣的實體,指明情緒,提取發言中的開放關係等。

Ubuntu下安裝Stanford CoreNLPUbuntu下安裝Stanford CoreNLP

很多自然語言處理的任務都需要stanfordcorenlp將進行文字處理。在 環境下安裝stanfordcorenlp也比較簡單。

首先需要安裝Java執行環境,以Ubuntu 12.04為例,安裝Java執行環境僅需要兩步:

sudo apt-get install default-jre
sudo apt-get install default-jdk12

然後下載Stanford coreNLP 包:

wget 
unzip stanford-corenlp-full-2018-02-27.zip
cd stanford-corenlp-full-2018-02-27/12345

也可以去stanford corenlp的官網上去下載安裝包,windows跟linux下都是一樣的。

配置環境變數:
我們需要Stanford corenlp來把資料分詞。
把下列這行程式碼加到你的.bashrc裡面(vim .bashrc)

export CLASSPATH=/path/to/stanford-corenlp-full-2018-02-27/stanford-corenlp-3.9.1.jar1

把/path/to/替換為你儲存stanford-corenlp-full-2016-10-31的地方的路徑
安裝:

sudo pip3 install stanfordcorenlp1

這裡如果你使用python2,就需要

sudo pip2 install stanfordcorenlp1

處理中文還需要下載中文的模型jar檔案,然後放到stanford-corenlp-full-2018-02-27根目錄下即可

wget 

如何檢查自己是否裝好了stanfordcorenlp
進入python2或者python3

python2
from stanfordcorenlp import StanfordCoreNLP123

能成功匯入不報錯,就是安裝成功了。
最後檢查是否能正常使用:
執行下列程式碼:

echo "Please tokenize this text." | java edu.stanford.nlp.process.PTBTokenizer1

你會看到下列輸出:

Please
tokenize
this
text
.
PTBTokenizer tokenized 5 tokens at 68.97 tokens per second.123456

這樣就安裝成功了。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69901823/viewspace-2856527/,如需轉載,請註明出處,否則將追究法律責任。

相關文章