Python NLP入門教程

發表於2017-11-19

Python

本文簡要介紹Python自然語言處理(NLP)，使用Python的NLTK庫。NLTK是Python的自然語言處理工具包，在NLP領域中，最常使用的一個Python庫。

什麼是NLP？

簡單來說，自然語言處理(NLP)就是開發能夠理解人類語言的應用程式或服務。

這裡討論一些自然語言處理(NLP)的實際應用例子，如語音識別、語音翻譯、理解完整的句子、理解匹配詞的同義詞，以及生成語法正確完整句子和段落。

這並不是NLP能做的所有事情。

NLP實現

搜尋引擎: 比如谷歌，Yahoo等。谷歌搜尋引擎知道你是一個技術人員，所以它顯示與技術相關的結果；

社交網站推送:比如Facebook News Feed。如果News Feed演算法知道你的興趣是自然語言處理，就會顯示相關的廣告和帖子。

語音引擎:比如Apple的Siri。

垃圾郵件過濾:如谷歌垃圾郵件過濾器。和普通垃圾郵件過濾不同，它通過了解郵件內容裡面的的深層意義，來判斷是不是垃圾郵件。

NLP庫

下面是一些開源的自然語言處理庫(NLP)：

Natural language toolkit (NLTK);
Apache OpenNLP;
Stanford NLP suite;
Gate NLP library

其中自然語言工具包(NLTK)是最受歡迎的自然語言處理庫(NLP)，它是用Python編寫的，而且背後有非常強大的社群支援。

NLTK也很容易上手，實際上，它是最簡單的自然語言處理(NLP)庫。

在這個NLP教程中，我們將使用Python NLTK庫。

安裝 NLTK

如果您使用的是Windows/Linux/Mac，您可以使用pip安裝NLTK:

pip install nltk

1	pip install nltk

開啟python終端匯入NLTK檢查NLTK是否正確安裝：

import nltk

1	import nltk

如果一切順利，這意味著您已經成功地安裝了NLTK庫。首次安裝了NLTK，需要通過執行以下程式碼來安裝NLTK擴充套件包:

import nltk

nltk.download()

import nltk

nltk.download()

這將彈出NLTK 下載視窗來選擇需要安裝哪些包:

您可以安裝所有的包，因為它們的大小都很小，所以沒有什麼問題。

使用Python Tokenize文字

首先，我們將抓取一個web頁面內容，然後分析文字瞭解頁面的內容。

我們將使用urllib模組來抓取web頁面:

import urllib.request

response = urllib.request.urlopen('http://php.net/')
html = response.read()
print (html)

import urllib.request

response = urllib.request.urlopen('http://php.net/')

html = response.read()

print (html)

從列印結果中可以看到，結果包含許多需要清理的HTML標籤。
然後BeautifulSoup模組來清洗這樣的文字:

from bs4 import BeautifulSoup

import urllib.request
response = urllib.request.urlopen('http://php.net/')
html = response.read()
soup = BeautifulSoup(html,"html5lib")
# 這需要安裝html5lib模組
text = soup.get_text(strip=True)
print (text)

from bs4 import BeautifulSoup

import urllib.request

response = urllib.request.urlopen('http://php.net/')

html = response.read()

soup = BeautifulSoup(html,"html5lib")

# 這需要安裝html5lib模組

text = soup.get_text(strip=True)

print (text)

現在我們從抓取的網頁中得到了一個乾淨的文字。
下一步，將文字轉換為tokens,像這樣:

from bs4 import BeautifulSoup
import urllib.request

response = urllib.request.urlopen('http://php.net/')
html = response.read()
soup = BeautifulSoup(html,"html5lib")
text = soup.get_text(strip=True)
tokens = text.split()
print (tokens)

from bs4 import BeautifulSoup

import urllib.request

response = urllib.request.urlopen('http://php.net/')

html = response.read()

soup = BeautifulSoup(html,"html5lib")

text = soup.get_text(strip=True)

tokens = text.split()

print (tokens)

統計詞頻

text已經處理完畢了，現在使用Python NLTK統計token的頻率分佈。

可以通過呼叫NLTK中的FreqDist()方法實現:

from bs4 import BeautifulSoup
import urllib.request
import nltk

response = urllib.request.urlopen('http://php.net/')
html = response.read()
soup = BeautifulSoup(html,"html5lib")
text = soup.get_text(strip=True)
tokens = text.split()
freq = nltk.FreqDist(tokens)
for key,val in freq.items():
    print (str(key) + ':' + str(val))

from bs4 import BeautifulSoup

import urllib.request

import nltk

response = urllib.request.urlopen('http://php.net/')

html = response.read()

soup = BeautifulSoup(html,"html5lib")

text = soup.get_text(strip=True)

tokens = text.split()

freq = nltk.FreqDist(tokens)

for key,val in freq.items():

print (str(key) + ':' + str(val))

如果搜尋輸出結果，可以發現最常見的token是PHP。
您可以呼叫plot函式做出頻率分佈圖:

freq.plot(20, cumulative=False)
# 需要安裝matplotlib庫

1 2	freq.plot(20, cumulative=False) # 需要安裝matplotlib庫

這上面這些單詞。比如of,a,an等等，這些詞都屬於停用詞。

一般來說，停用詞應該刪除，防止它們影響分析結果。

處理停用詞

NLTK自帶了許多種語言的停用詞列表，如果你獲取英文停用詞:

from nltk.corpus import stopwords

stopwords.words('english')

from nltk.corpus import stopwords

stopwords.words('english')

現在，修改下程式碼,在繪圖之前清除一些無效的token:

clean_tokens = list()
sr = stopwords.words('english')
for token in tokens:
    if token not in sr:
        clean_tokens.append(token)

clean_tokens = list()

sr = stopwords.words('english')

for token in tokens:

if token not in sr:

clean_tokens.append(token)

最終的程式碼應該是這樣的:

from bs4 import BeautifulSoup
import urllib.request
import nltk
from nltk.corpus import stopwords

response = urllib.request.urlopen('http://php.net/')
html = response.read()
soup = BeautifulSoup(html,"html5lib")
text = soup.get_text(strip=True)
tokens = text.split()
clean_tokens = list()
sr = stopwords.words('english')
for token in tokens:
    if not token in sr:
        clean_tokens.append(token)
freq = nltk.FreqDist(clean_tokens)
for key,val in freq.items():
    print (str(key) + ':' + str(val))

from bs4 import BeautifulSoup

import urllib.request

import nltk

from nltk.corpus import stopwords

response = urllib.request.urlopen('http://php.net/')

html = response.read()

soup = BeautifulSoup(html,"html5lib")

text = soup.get_text(strip=True)

tokens = text.split()

clean_tokens = list()

sr = stopwords.words('english')

for token in tokens:

if not token in sr:

clean_tokens.append(token)

freq = nltk.FreqDist(clean_tokens)

for key,val in freq.items():

print (str(key) + ':' + str(val))

現在再做一次詞頻統計圖，效果會比之前好些，因為剔除了停用詞:

freq.plot(20,cumulative=False)

1	freq.plot(20,cumulative=False)

使用NLTK Tokenize文字

在之前我們用split方法將文字分割成tokens，現在我們使用NLTK來Tokenize文字。

文字沒有Tokenize之前是無法處理的，所以對文字進行Tokenize非常重要的。token化過程意味著將大的部件分割為小部件。

你可以將段落tokenize成句子，將句子tokenize成單個詞，NLTK分別提供了句子tokenizer和單詞tokenizer。

假如有這樣這段文字:

Hello Adam, how are you? I hope everything is going well. Today is a good day, see you dude.

1	Hello Adam, how are you? I hope everything is going well. Today is a good day, see you dude.

使用句子tokenizer將文字tokenize成句子:

from nltk.tokenize import sent_tokenize

mytext = "Hello Adam, how are you? I hope everything is going well. Today is a good day, see you dude."
print(sent_tokenize(mytext))

from nltk.tokenize import sent_tokenize

mytext = "Hello Adam, how are you? I hope everything is going well. Today is a good day, see you dude."

print(sent_tokenize(mytext))

輸出如下:

['Hello Adam, how are you?', 'I hope everything is going well.', 'Today is a good day, see you dude.']

1	['Hello Adam, how are you?', 'I hope everything is going well.', 'Today is a good day, see you dude.']

這是你可能會想，這也太簡單了，不需要使用NLTK的tokenizer都可以，直接使用正規表示式來拆分句子就行，因為每個句子都有標點和空格。

那麼再來看下面的文字:

Hello Mr. Adam, how are you? I hope everything is going well. Today is a good day, see you dude.

1	Hello Mr. Adam, how are you? I hope everything is going well. Today is a good day, see you dude.

這樣如果使用標點符號拆分,Hello Mr將會被認為是一個句子，如果使用NLTK:

from nltk.tokenize import sent_tokenize

mytext = "Hello Mr. Adam, how are you? I hope everything is going well. Today is a good day, see you dude."
print(sent_tokenize(mytext))

from nltk.tokenize import sent_tokenize

mytext = "Hello Mr. Adam, how are you? I hope everything is going well. Today is a good day, see you dude."

print(sent_tokenize(mytext))

輸出如下:

['Hello Mr. Adam, how are you?', 'I hope everything is going well.', 'Today is a good day, see you dude.']

1	['Hello Mr. Adam, how are you?', 'I hope everything is going well.', 'Today is a good day, see you dude.']

這才是正確的拆分。

接下來試試單詞tokenizer:

from nltk.tokenize import word_tokenize

mytext = "Hello Mr. Adam, how are you? I hope everything is going well. Today is a good day, see you dude."
print(word_tokenize(mytext))

from nltk.tokenize import word_tokenize

mytext = "Hello Mr. Adam, how are you? I hope everything is going well. Today is a good day, see you dude."

print(word_tokenize(mytext))

輸出如下:

['Hello', 'Mr.', 'Adam', ',', 'how', 'are', 'you', '?', 'I', 'hope', 'everything', 'is', 'going', 'well', '.', 'Today', 'is', 'a', 'good', 'day', ',', 'see', 'you', 'dude', '.']

1	['Hello', 'Mr.', 'Adam', ',', 'how', 'are', 'you', '?', 'I', 'hope', 'everything', 'is', 'going', 'well', '.', 'Today', 'is', 'a', 'good', 'day', ',', 'see', 'you', 'dude', '.']

Mr.這個詞也沒有被分開。NLTK使用的是punkt模組的PunktSentenceTokenizer，它是NLTK.tokenize的一部分。而且這個tokenizer經過訓練，可以適用於多種語言。

非英文Tokenize

Tokenize時可以指定語言:

from nltk.tokenize import sent_tokenize

mytext = "Bonjour M. Adam, comment allez-vous? J'espère que tout va bien. Aujourd'hui est un bon jour."
print(sent_tokenize(mytext,"french"))

from nltk.tokenize import sent_tokenize

mytext = "Bonjour M. Adam, comment allez-vous? J'espère que tout va bien. Aujourd'hui est un bon jour."

print(sent_tokenize(mytext,"french"))

輸出結果如下:

['Bonjour M. Adam, comment allez-vous?', "J'espère que tout va bien.", "Aujourd'hui est un bon jour."]

1	['Bonjour M. Adam, comment allez-vous?', "J'espère que tout va bien.", "Aujourd'hui est un bon jour."]

同義詞處理

使用nltk.download()安裝介面，其中一個包是WordNet。

WordNet是一個為自然語言處理而建立的資料庫。它包括一些同義片語和一些簡短的定義。

您可以這樣獲取某個給定單詞的定義和示例:

from nltk.corpus import wordnet

syn = wordnet.synsets("pain")
print(syn[0].definition())
print(syn[0].examples())

from nltk.corpus import wordnet

syn = wordnet.synsets("pain")

print(syn[0].definition())

print(syn[0].examples())

輸出結果是:

a symptom of some physical hurt or disorder
['the patient developed severe pain and distension']

1 2	a symptom of some physical hurt or disorder ['the patient developed severe pain and distension']

WordNet包含了很多定義：

from nltk.corpus import wordnet

syn = wordnet.synsets("NLP")
print(syn[0].definition())
syn = wordnet.synsets("Python")
print(syn[0].definition())

from nltk.corpus import wordnet

syn = wordnet.synsets("NLP")

print(syn[0].definition())

syn = wordnet.synsets("Python")

print(syn[0].definition())

結果如下:

the branch of information science that deals with natural language information
large Old World boas

1 2	the branch of information science that deals with natural language information large Old World boas

可以像這樣使用WordNet來獲取同義詞:

from nltk.corpus import wordnet

synonyms = []
for syn in wordnet.synsets('Computer'):
    for lemma in syn.lemmas():
        synonyms.append(lemma.name())
print(synonyms)

from nltk.corpus import wordnet

synonyms = []

for syn in wordnet.synsets('Computer'):

for lemma in syn.lemmas():

synonyms.append(lemma.name())

print(synonyms)

輸出:

['computer', 'computing_machine', 'computing_device', 'data_processor', 'electronic_computer', 'information_processing_system', 'calculator', 'reckoner', 'figurer', 'estimator', 'computer']

1	['computer', 'computing_machine', 'computing_device', 'data_processor', 'electronic_computer', 'information_processing_system', 'calculator', 'reckoner', 'figurer', 'estimator', 'computer']

反義詞處理

也可以用同樣的方法得到反義詞：

from nltk.corpus import wordnet

antonyms = []
for syn in wordnet.synsets("small"):
    for l in syn.lemmas():
        if l.antonyms():
            antonyms.append(l.antonyms()[0].name())
print(antonyms)

from nltk.corpus import wordnet

antonyms = []

for syn in wordnet.synsets("small"):

for l in syn.lemmas():

if l.antonyms():

antonyms.append(l.antonyms()[0].name())

print(antonyms)

輸出:

['large', 'big', 'big']

1	['large', 'big', 'big']

詞幹提取

語言形態學和資訊檢索裡，詞幹提取是去除詞綴得到詞根的過程，例如working的詞幹為work。

搜尋引擎在索引頁面時就會使用這種技術，所以很多人為相同的單詞寫出不同的版本。

有很多種演算法可以避免這種情況，最常見的是波特詞幹演算法。NLTK有一個名為PorterStemmer的類，就是這個演算法的實現:

from nltk.stem import PorterStemmer

stemmer = PorterStemmer()
print(stemmer.stem('working'))
print(stemmer.stem('worked'))

from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

print(stemmer.stem('working'))

print(stemmer.stem('worked'))

輸出結果是:

work
work

work

還有其他的一些詞幹提取演算法，比如 Lancaster詞幹演算法。

非英文詞幹提取

除了英文之外，SnowballStemmer還支援13種語言。

支援的語言:

from nltk.stem import SnowballStemmer

print(SnowballStemmer.languages)

from nltk.stem import SnowballStemmer

print(SnowballStemmer.languages)

'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'porter', 'portuguese', 'romanian', 'russian', 'spanish', 'swedish'

1	'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'porter', 'portuguese', 'romanian', 'russian', 'spanish', 'swedish'

你可以使用SnowballStemmer類的stem函式來提取像這樣的非英文單詞：

from nltk.stem import SnowballStemmer

french_stemmer = SnowballStemmer('french')

print(french_stemmer.stem("French word"))

from nltk.stem import SnowballStemmer

french_stemmer = SnowballStemmer('french')

print(french_stemmer.stem("French word"))

單詞變體還原

單詞變體還原類似於詞幹，但不同的是，變體還原的結果是一個真實的單詞。不同於詞幹，當你試圖提取某些詞時，它會產生類似的詞:

from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

print(stemmer.stem('increases'))

from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

print(stemmer.stem('increases'))

結果:

increas

increas

現在，如果用NLTK的WordNet來對同一個單詞進行變體還原，才是正確的結果:

from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

print(lemmatizer.lemmatize('increases'))

from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

print(lemmatizer.lemmatize('increases'))

結果:

increase

increase

結果可能會是一個同義詞或同一個意思的不同單詞。

有時候將一個單詞做變體還原時，總是得到相同的詞。

這是因為語言的預設部分是名詞。要得到動詞，可以這樣指定：

from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

print(lemmatizer.lemmatize('playing', pos="v"))

from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

print(lemmatizer.lemmatize('playing', pos="v"))

結果:

play

play

實際上，這也是一種很好的文字壓縮方式，最終得到文字只有原先的50%到60%。

結果還可以是動詞(v)、名詞(n)、形容詞(a)或副詞(r)：

from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize('playing', pos="v"))
print(lemmatizer.lemmatize('playing', pos="n"))
print(lemmatizer.lemmatize('playing', pos="a"))
print(lemmatizer.lemmatize('playing', pos="r"))

from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

print(lemmatizer.lemmatize('playing', pos="v"))

print(lemmatizer.lemmatize('playing', pos="n"))

print(lemmatizer.lemmatize('playing', pos="a"))

print(lemmatizer.lemmatize('playing', pos="r"))

輸出:

play
playing
playing
playing

play

playing

詞幹和變體的區別

通過下面例子來觀察:

from nltk.stem import WordNetLemmatizer
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()
lemmatizer = WordNetLemmatizer()
print(stemmer.stem('stones'))
print(stemmer.stem('speaking'))
print(stemmer.stem('bedroom'))
print(stemmer.stem('jokes'))
print(stemmer.stem('lisa'))
print(stemmer.stem('purple'))
print('----------------------')
print(lemmatizer.lemmatize('stones'))
print(lemmatizer.lemmatize('speaking'))
print(lemmatizer.lemmatize('bedroom'))
print(lemmatizer.lemmatize('jokes'))
print(lemmatizer.lemmatize('lisa'))
print(lemmatizer.lemmatize('purple'))

from nltk.stem import WordNetLemmatizer

from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

lemmatizer = WordNetLemmatizer()

print(stemmer.stem('stones'))

print(stemmer.stem('speaking'))

print(stemmer.stem('bedroom'))

print(stemmer.stem('jokes'))

print(stemmer.stem('lisa'))

print(stemmer.stem('purple'))

print('----------------------')

print(lemmatizer.lemmatize('stones'))

print(lemmatizer.lemmatize('speaking'))

print(lemmatizer.lemmatize('bedroom'))

print(lemmatizer.lemmatize('jokes'))

print(lemmatizer.lemmatize('lisa'))

print(lemmatizer.lemmatize('purple'))

輸出:

stone
speak
bedroom
joke
lisa
purpl
---------------------
stone
speaking
bedroom
joke
lisa
purple

stone

speak

bedroom

joke

lisa

purpl

---------------------

stone

speaking

bedroom

joke

lisa

purple

詞幹提取不會考慮語境，這也是為什麼詞幹提取比變體還原快且準確度低的原因。

個人認為，變體還原比詞幹提取更好。單詞變體還原返回一個真實的單詞，即使它不是同一個單詞，也是同義詞，但至少它是一個真實存在的單詞。

如果你只關心速度，不在意準確度，這時你可以選用詞幹提取。

在此NLP教程中討論的所有步驟都只是文字預處理。在以後的文章中，將會使用Python NLTK來實現文字分析。

我已經儘量使文章通俗易懂。希望能對你有所幫助。

nlp入門
2019-03-05
python 入門教程
2016-03-30
Python
NLP入門資料
2019-03-12
python OpenCV 入門教程
2016-09-21
PythonOpenCV
小白nlp入門基礎（一）--nlp簡介
2018-09-26
ML/NLP入門教程Python版（第一部分：文字處理）
2015-05-11
Python
NLP入門學習中關於分詞庫HanLP匯入使用教程
2021-04-16
分詞HanLP
Python 官方文件：入門教程
2018-08-16
Python
NLP入門-學習路徑
2017-09-28
2023nlp影片教程大全 NLP自然語言處理教程自然語言處理NLP從入門到專案實戰
2023-05-05
自然語言處理
Python教程之小白入門篇
2021-04-09
Python
Python中的Numpy入門教程
2018-06-10
Python
如何區分python入門教程？
2017-07-24
Python
Python Flask基礎教程（入門）
2017-07-15
PythonFlask
Python入門基礎教程(兒童版) [分享一本入門級教程]
2013-07-08
Python
NLP入門之語音模型原理
2018-01-16
模型
Python 繪相簿 Matplotlib 入門教程
2018-04-16
Python
Python Django基礎教程（一）（入門）
2017-04-17
PythonDjango
自然語言處理NLP快速入門
2018-10-24
自然語言處理
NLP入門之N元語法模型
2018-01-17
模型
自然語言處理（NLP）入門指南
2017-06-19
自然語言處理
從零開始學機器學習——入門NLP
2024-11-21
機器學習
Python快速入門，附詳細影片教程
2020-07-31
Python
Python開發的入門教程(五)-set
2020-08-26
Python
新人求python教程，人工智慧入門
2019-03-18
Python人工智慧
Python入門教程—資料分析工具Pandas
2021-08-11
Python
Python爬蟲入門教程導航帖
2019-01-08
Python爬蟲
Python 系列教程（入門系列已寫完）
2018-02-27
Python
Python語言如何入門？新手入門教程限時免費領
2020-06-01
Python
Python IDLE和Python的區別！Python入門教程
2021-07-19
Python
推薦 7 個 Python 入門視訊教程
2019-04-04
Python
Python 從入門到爬蟲極簡教程
2019-02-16
Python爬蟲
Python開發的入門教程(六)-函式
2020-09-01
Python函式
Python 資料處理庫 pandas 入門教程
2018-04-17
Python
哪有python入門經典教程資源分享？
2017-08-08
Python
Iptables入門教程
2020-08-19
vue入門教程
2019-04-01
Vue
Redux入門教程
2019-05-11
Redux

Python NLP入門教程

什麼是NLP？

NLP實現

NLP庫

安裝 NLTK

使用Python Tokenize文字

統計詞頻

處理停用詞

使用NLTK Tokenize文字

非英文Tokenize

同義詞處理

反義詞處理

詞幹提取

非英文詞幹提取

單詞變體還原

詞幹和變體的區別

相關文章