使用馬爾可夫模型自動生成文章

笑虎發表於2015-08-28

馬爾可夫鏈是一個隨機過程，在這個過程中，我們假設前一個或前幾個狀態對預測下一個狀態起決定性作用。和拋硬幣不同，這些事件之間不是相互獨立的。通過一個例子更容易理解。

想象一下天氣只能是下雨天或者晴天。也就是說，狀態空間是雨天或者晴天。我們可以將馬爾可夫模型表示為一個轉移矩陣，矩陣的每一行代表一個狀態，每一列代表該狀態轉移到另外一個狀態的概率。

然而，通過這個狀態轉移示意圖更容易理解。

換句話說，假如今天是晴天，那麼有90%的概率明天也是晴天，有10%的概率明天是下雨天。

文章生成器

馬爾可夫模型有個很酷的應用是一種語言模型，在這個模型中，我們根據當前的一個或幾個詞預測下一個詞是什麼。如果我們只是根據上一個詞預測，則它是一個一階馬爾可夫模型。如果我們用上兩個詞預測，則它是一個二階馬爾可夫模型。

在我的例項中，我使用Henry Thoreau的小說Walden做訓練。為了好做實驗，我也加入了Nietszche的Thus Spoke Zarathustra，以及一些Obama的演講。無論你訓練什麼樣的文字，模型都會生成相似的結果，是不是很酷？

首先我們引入NLTK，它是Python中最好的NLP庫。我想說，雖然我們這裡做的自然語言處理很簡單，但NLTK的內建函式還是幫我節省了很多程式碼。然後我們利用split()函式將字串（從文字檔案中獲得的）轉換成一個陣列。

import nltk
import random
file = open('Text/Walden.txt', 'r')
walden = file.read()
walden = walden.split()

import nltk

import random

file = open('Text/Walden.txt', 'r')

walden = file.read()

walden = walden.split()

上邊兩個函式是程式碼的基本函式。我們最終要使用的NLTK中的“條件頻率字典”必須以成對陣列作為輸入，所以短語“Hi my name is Alex”需要變為[(“Hi”, “my”), (“my, “name”), (“name”, “is”), (“is”, “Alex”)]。函式makePairs以一個陣列（以詞分割字串得到）作為輸入，輸出符合上邊格式的陣列。

生成文章的方法，需要一個條件頻率分佈作為輸入。想想看，“農場”的後邊每一個詞出現的次數是多少？這是一個“條件頻率分佈”的輸出（對於所有的詞，而不只是“農場”）。生成函式的其餘部分是根據訓練資料中觀察到的分佈輸出文字。我通過建立一個出現在當前詞後邊的每一個片語成的陣列實現這一點。陣列中也有正確的計數，因此，接下來我只需要隨機選擇陣列中的一個詞即可，而這個過程也是服從分佈的。

def makePairs(arr):
    pairs = []
    for i in range(len(arr)):
        if i < len(arr)-1: 
            temp = (arr[i], arr[i+1])
            pairs.append(temp)
    return pairs

def generate(cfd, word = 'the', num = 50):
    for i in range(num):
        arr = []                 # make an array with the words shown by proper count
        for j in cfd[word]:
            for k in range(cfd[word][j]):
                arr.append(j)

        print(word, end=' ')
        word = arr[int((len(arr))*random.random())]

def makePairs(arr):

pairs = []

for i in range(len(arr)):

if i < len(arr)-1:

temp = (arr[i], arr[i+1])

pairs.append(temp)

return pairs

def generate(cfd, word = 'the', num = 50):

for i in range(num):

arr = [] # make an array with the words shown by proper count

for j in cfd[word]:

for k in range(cfd[word][j]):

arr.append(j)

print(word, end=' ')

word = arr[int((len(arr))*random.random())]

最後三行程式碼，我們輸出了一些很像Walden風格的文字。

pairs = makePairs(walden)
cfd = nltk.ConditionalFreqDist(pairs)
generate(cfd)

pairs = makePairs(walden)

cfd = nltk.ConditionalFreqDist(pairs)

generate(cfd)

輸出結果：

我建議你看一下我Github上的iPython筆記，因為我繼續完成了一個方法。利用這個方法，你只需要輸入一個檔名，它就能輸出生成的文字。Obama的例子也非常的酷。

如果你想自己嘗試一下，只需要建立一個文字檔案，然後把它放在合適的目錄即可。

打賞支援我翻譯更多好文章，謝謝！
打賞譯者

打賞支援我翻譯更多好文章，謝謝！

使用馬爾可夫模型自動生成文章

隱馬爾可夫模型
2009-03-16
隱馬爾可夫模型
HMM隱馬爾可夫模型
2017-07-27
HMM隱馬爾可夫模型
隱馬爾可夫模型詳解
2020-08-10
隱馬爾可夫模型
10_隱馬爾可夫模型
2020-06-09
隱馬爾可夫模型
ML-隱馬爾可夫模型
2019-03-27
隱馬爾可夫模型
機器學習之隱馬爾可夫模型
2019-07-26
機器學習隱馬爾可夫模型
馬爾可夫鏈模型(轉載)
2007-07-30
馬爾可夫模型
隱馬爾可夫模型 | 賽爾筆記
2019-04-19
隱馬爾可夫模型筆記
隱馬爾可夫模型(HMM)詳解
2019-02-21
隱馬爾可夫模型HMM
隱馬爾可夫模型及應用
2017-01-07
隱馬爾可夫模型
在 Swift 中使用馬爾可夫鏈生成文字
2019-02-26
Swift馬爾可夫
NLP-隱馬爾可夫模型及使用例項
2018-04-09
隱馬爾可夫模型
隱馬爾可夫模型(HMM)中文分詞
2016-09-24
隱馬爾可夫模型HMM中文分詞
隱馬爾可夫模型（HMM）實現分詞
2017-03-31
隱馬爾可夫模型HMM分詞
域結構進化的馬爾可夫模型
2024-07-03
馬爾可夫模型
【HMM】隱馬爾科夫模型
2015-05-05
HMM馬爾科夫模型
HMM隱馬爾可夫模型來龍去脈（二）
2020-09-01
HMM隱馬爾可夫模型
使用 Python 生成基於馬爾可夫鏈的偽隨機文字
2015-12-27
Python馬爾可夫隨機
隱馬爾可夫模型的Viterbi解碼演算法
2017-09-21
隱馬爾可夫模型Viterbi演算法
隱馬爾科夫模型HMM（一）HMM模型
2017-06-06
馬爾科夫模型HMM
用簡單易懂的例子解釋隱馬爾可夫模型
2020-10-24
隱馬爾可夫模型
理解馬爾可夫決策過程
2019-01-28
馬爾可夫
2022-05-17-馬爾科夫鏈之傳統馬爾可夫鏈
2024-05-22
馬爾科夫馬爾可夫
維特比演算法和隱馬爾可夫模型的解碼
2021-10-28
維特比演算法隱馬爾可夫模型
隱馬爾科夫模型（HMM）分詞研究
2014-07-28
馬爾科夫模型HMM分詞
機器學習知識點(十)馬爾可夫鏈
2017-03-03
機器學習馬爾可夫
馬爾科夫鏈隨機文字生成器
2018-12-30
馬爾科夫隨機
用hmmlearn學習隱馬爾科夫模型HMM
2017-06-13
HMM馬爾科夫模型
「馬爾可夫決策過程」學習筆記
2024-03-04
馬爾可夫筆記
CVPR 2021 | 時間序列疾病預測的因果隱馬爾可夫模型
2022-07-18
隱馬爾可夫模型
MCMC(二)馬爾科夫鏈
2017-03-28
馬爾科夫
隱馬爾科夫模型前向後向演算法
2017-09-13
馬爾科夫模型演算法
【機器學習】--隱含馬爾科夫模型從初識到應用
2018-04-09
機器學習馬爾科夫模型
圖˙譜˙馬爾可夫過程˙聚類結構----by林達華
2016-05-08
馬爾可夫聚類
從語言建模到隱馬爾可夫模型：一文詳述計算語言學
2017-09-21
隱馬爾可夫模型
馬爾可夫鏈你知道多少？Python視覺化解析MCMC
2019-10-15
馬爾可夫Python視覺化
[譯] 用 Python 實現馬爾可夫鏈的初級教程
2019-03-03
Python馬爾可夫
一個馬爾科夫鏈例項
2018-07-28
馬爾科夫

使用馬爾可夫模型自動生成文章

打賞支援我翻譯更多好文章，謝謝！

相關文章