使用 LSTM 智慧作詩送新年祝福

Momodel發表於2019-04-30

原文網址 : https://juejin.im/post/5cc82c38e51d456e4d4de7d3

LSTM 介紹

序列化資料即每個樣本和它之前的樣本存在關聯，前一資料和後一個資料有順序關係。深度學習中有一個重要的分支是專門用來處理這樣的資料的——迴圈神經網路。迴圈神經網路廣泛應用在自然語言處理領域(NLP)，今天我們帶你從一個實際的例子出發，介紹迴圈神經網路一個重要的改進演算法模型-LSTM。本文章不對LSTM的原理進行深入，想詳細瞭解LSTM可以參考這篇 [譯] 理解 LSTM 網路。本文重點從古詩詞自動生成的例項出發，一步一步帶你從資料處理到模型搭建，再到訓練出古詩詞生成模型，最後實現從古詩詞自動生成新春祝福詩詞。

資料處理

我們使用76748首古詩詞作為資料集，資料集下載連結，原始的古詩詞的儲存形式如下：

我們可以看到原始的古詩詞是文字符號的形式，無法直接進行機器學習，所以我們第一步需要把文字資訊轉換為資料形式，這種轉換方式就叫詞嵌入(word embedding)，我們採用一種常用的詞巢狀(word embedding)演算法-Word2vec對古詩詞進行編碼。關於Word2Vec這裡不詳細講解，感興趣可以參考 [NLP] 秒懂詞向量Word2vec的本質。在詞巢狀過程中，為了避免最終的分類數過於龐大，可以選擇去掉出現頻率較小的字，比如可以去掉只出現過一次的字。Word2vec演算法經過訓練後會產生一個模型檔案，我們就可以利用這個模型檔案對古詩詞文字進行詞巢狀編碼。

經過第一步的處理已經把古詩詞詞語轉換為可以機器學習建模的數字形式，因為我們採用LSTM演算法進行古詩詞生成，所以還需要構建輸入到輸出的對映處理。例如： “[長河落日圓]”作為train_data，而相應的train_label就是“長河落日圓]]”，也就是 “[”->“長”，“長”->“河”，“河”->“落”，“落”->“日”，“日”->“圓”，“圓”->“]”，“]”->“]”，這樣子先後順序一一對相。這也是迴圈神經網路的一個重要的特徵。這裡的“[”和“]”是開始符和結束符，用於生成古詩的開始與結束標記。

總結一下資料處理的步驟：

讀取原始的古詩詞文字，統計出所有不同的字，使用 Word2Vec 演算法進行對應編碼；
對於每首詩，將每個字、標點都轉換為字典中對應的編號，構成神經網路的輸入資料 train_data；
將輸入資料左移動構成輸出標籤 train_label；

經過資料處理後我們得到以下資料檔案：

poems_edge_split.txt：原始古詩詞檔案，按行排列，每行為一首詩詞；
vectors_poem.bin：利用 Word2Vec訓練好的詞向量模型，以開頭，按詞頻排列，去除低頻詞；
poem_ids.txt：按輸入輸出關係對映處理之後的語料庫檔案；
rhyme_words.txt：押韻詞儲存，用於押韻詩的生成；

在提供的原始碼中已經提供了以上四個資料檔案放在data資料夾下，資料處理程式碼見 data_loader.py 檔案，原始碼連結

模型構建及訓練

這裡我們使用2層的LSTM框架，每層有128個隱藏層節點，我們使用tensorflow.nn模組庫來定義網路結構層，其中RNNcell是tensorflow中實現RNN的基本單元，是一個抽象類，在實際應用中多用RNNcell的實現子類BasicRNNCell或者BasicLSTMCell，BasicGRUCell；如果需要構建多層的RNN，在TensorFlow中，可以使用tf.nn.rnn_cell.MultiRNNCell函式對RNNCell進行堆疊。模型網路的第一層要對輸入資料進行 embedding，可以理解為資料的維度變換，經過兩層LSTM後，接著softMax得到一個在全字典上的輸出概率。模型網路結構如下：

定義網路的類的程式程式碼如下：


class CharRNNLM(object):
    def __init__(self, is_training, batch_size, vocab_size, w2v_model,
                 hidden_size, max_grad_norm, embedding_size, num_layers,
                 learning_rate, cell_type, dropout=0.0, input_dropout=0.0, infer=False):
        self.batch_size = batch_size
        self.hidden_size = hidden_size
        self.vocab_size = vocab_size
        self.max_grad_norm = max_grad_norm
        self.num_layers = num_layers
        self.embedding_size = embedding_size
        self.cell_type = cell_type
        self.dropout = dropout
        self.input_dropout = input_dropout
        self.w2v_model = w2v_model

        if embedding_size <= 0:
            self.input_size = vocab_size
            self.input_dropout = 0.0
        else:
            self.input_size = embedding_size

        # 輸入和輸入定義
        self.input_data = tf.placeholder(tf.int64, [self.batch_size, self.num_unrollings], name='inputs')
        self.targets = tf.placeholder(tf.int64, [self.batch_size, self.num_unrollings], name='targets')

        # 根據定義選擇不同的迴圈神經網路核心單元
        if self.cell_type == 'rnn':
            cell_fn = tf.nn.rnn_cell.BasicRNNCell
        elif self.cell_type == 'lstm':
            cell_fn = tf.nn.rnn_cell.LSTMCell
        elif self.cell_type == 'gru':
            cell_fn = tf.nn.rnn_cell.GRUCell

        params = dict()
        if self.cell_type == 'lstm':
            params['forget_bias'] = 1.0
        cell = cell_fn(self.hidden_size, **params)

        cells = [cell]
        for i in range(self.num_layers-1):
            higher_layer_cell = cell_fn(self.hidden_size, **params)
            cells.append(higher_layer_cell)

        # 訓練時是否進行 Dropout
        if is_training and self.dropout > 0:
            cells = [tf.nn.rnn_cell.DropoutWrapper(cell, output_keep_prob=1.0-self.dropout) for cell in cells]

        # 對lstm層進行堆疊
        multi_cell = tf.nn.rnn_cell.MultiRNNCell(cells)

        # 定義網路模型初始狀態
        with tf.name_scope('initial_state'):
            self.zero_state = multi_cell.zero_state(self.batch_size, tf.float32)
            if self.cell_type == 'rnn' or self.cell_type == 'gru':
                self.initial_state = tuple(
                        [tf.placeholder(tf.float32,
                            [self.batch_size, multi_cell.state_size[idx]],
                            'initial_state_'+str(idx+1)) for idx in range(self.num_layers)])
            elif self.cell_type == 'lstm':
                self.initial_state = tuple(
                        [tf.nn.rnn_cell.LSTMStateTuple(
                            tf.placeholder(tf.float32, [self.batch_size, multi_cell.state_size[idx][0]],
                                          'initial_lstm_state_'+str(idx+1)),
                            tf.placeholder(tf.float32, [self.batch_size, multi_cell.state_size[idx][1]],
                                           'initial_lstm_state_'+str(idx+1)))
                            for idx in range(self.num_layers)])

        # 定義 embedding 層
        with tf.name_scope('embedding_layer'):
            if embedding_size > 0:
                # self.embedding = tf.get_variable('embedding', [self.vocab_size, self.embedding_size])
                self.embedding = tf.get_variable("word_embeddings",
                    initializer=self.w2v_model.vectors.astype(np.float32))
            else:
                self.embedding = tf.constant(np.eye(self.vocab_size), dtype=tf.float32)

            inputs = tf.nn.embedding_lookup(self.embedding, self.input_data)
            if is_training and self.input_dropout > 0:
                inputs = tf.nn.dropout(inputs, 1-self.input_dropout)

        # 建立每個切分通道網路層
        with tf.name_scope('slice_inputs'):
            sliced_inputs = [tf.squeeze(input_, [1]) for input_ in tf.split(
                axis = 1, num_or_size_splits = self.num_unrollings, value = inputs)]

        outputs, final_state = tf.nn.static_rnn(
                cell = multi_cell,
                inputs = sliced_inputs,
                initial_state=self.initial_state)
        self.final_state = final_state

        # 資料變換層，把經過迴圈神經網路的資料拉伸降維
        with tf.name_scope('flatten_outputs'):
            flat_outputs = tf.reshape(tf.concat(axis = 1, values = outputs), [-1, hidden_size])

        with tf.name_scope('flatten_targets'):
            flat_targets = tf.reshape(tf.concat(axis = 1, values = self.targets), [-1])

        # 定義 softmax 輸出層
        with tf.variable_scope('softmax') as sm_vs:
            softmax_w = tf.get_variable('softmax_w', [hidden_size, vocab_size])
            softmax_b = tf.get_variable('softmax_b', [vocab_size])
            self.logits = tf.matmul(flat_outputs, softmax_w) + softmax_b
            self.probs = tf.nn.softmax(self.logits)

        # 定義 loss 損失函式
        with tf.name_scope('loss'):
            loss = tf.nn.sparse_softmax_cross_entropy_with_logits(
                    logits = self.logits, labels = flat_targets)
            self.mean_loss = tf.reduce_mean(loss)

        # tensorBoard 損失函式視覺化
        with tf.name_scope('loss_montor'):
            count = tf.Variable(1.0, name='count')
            sum_mean_loss = tf.Variable(1.0, name='sum_mean_loss')

            self.reset_loss_monitor = tf.group(sum_mean_loss.assign(0.0),
                                               count.assign(0.0), name='reset_loss_monitor')
            self.update_loss_monitor = tf.group(sum_mean_loss.assign(sum_mean_loss+self.mean_loss),
                                                count.assign(count+1), name='update_loss_monitor')

            with tf.control_dependencies([self.update_loss_monitor]):
                self.average_loss = sum_mean_loss / count
                self.ppl = tf.exp(self.average_loss)

            average_loss_summary = tf.summary.scalar(
                    name = 'average loss', tensor = self.average_loss)
            ppl_summary = tf.summary.scalar(
                    name = 'perplexity', tensor = self.ppl)

        self.summaries = tf.summary.merge(
                inputs = [average_loss_summary, ppl_summary], name='loss_monitor')

        self.global_step = tf.get_variable('global_step', [], initializer=tf.constant_initializer(0.0))
        self.learning_rate = tf.placeholder(tf.float32, [], name='learning_rate')

        if is_training:
            tvars = tf.trainable_variables()
            grads, _ = tf.clip_by_global_norm(tf.gradients(self.mean_loss, tvars), self.max_grad_norm)
            optimizer = tf.train.AdamOptimizer(self.learning_rate)
            self.train_op = optimizer.apply_gradients(zip(grads, tvars), global_step=self.global_step)


複製程式碼

訓練時可以定義batch_size的值，是否進行dropout，為了結果的多樣性，訓練時在softmax輸出層每次可以選擇topK概率的字元作為輸出。訓練完成後可以使用tensorboard 對網路結構和訓練過程視覺化展示。這裡推薦大家一個線上人工智慧建模平臺momodel.cn，帶有完整的Python和機器學習框架執行環境，並且有免費的GPU可以使用，大家可以訓練的時候可以在這個平臺上試一下。訓練部分的程式碼和訓練好的模型見連結。

詩詞生成

呼叫前面訓練好的模型我們就可以實現一個古詩詞的應用了，我這裡利用 Mo平臺實現了藏頭詩和藏子詩自動生成的功能，執行的效果如下：

PC端檢視完整程式碼

參考文章： www.jianshu.com/p/9dc9f41f0… zhuanlan.zhihu.com/p/26306795 github.com/norybaby/po… ————————————————————————————————————Mo （網址：momodel.cn）是一個支援 Python 的人工智慧建模平臺，能幫助你快速開發訓練並部署 AI 應用。

新年新氣象！《葫蘆娃2》手遊新夥伴小鼓送元旦祝福！
2022-12-30
2022虎年賀詞四字新年祝福語大全
2022-01-29
深度學習（三）之LSTM寫詩
2022-04-04
深度學習
怎麼製作一個喜慶又儀式感滿滿的新年祝福H5給客戶？
2022-01-08
H5
2018教師節送給的老師的祝福語教師節祝福語大全
2018-09-10
AI 智慧寫情詩、藏頭詩
2022-02-09
AI
三六零天御送給銀行APP的新年安心禮包
2018-12-18
APP
基於LSTM模型的智慧選股策略
2019-10-21
模型
各種快速排序-史詩級鉅作
2024-07-20
排序
LSTM & Bi-LSTM & GRU
2020-12-18
【Python】keras使用LSTM擬合曲線
2018-09-21
PythonKeras
零基礎也能製作的節日祝福賀卡！看教程！
2023-02-16
祝福自己生日快樂！
2020-04-04
課內外結合進行送別詩的複習策略1
2024-09-14
課內外結合進行送別詩的複習策略2
2024-09-14
課內外結合進行送別詩的複習策略3
2024-09-14
課內外結合進行送別詩的複習策略4
2024-09-14
課內外結合進行送別詩的複習策略5
2024-09-14
使用Keras進行深度學習：（六）LSTM和雙向LSTM講解及實踐
2018-05-04
Keras深度學習
使用你的 Linux 終端慶祝新年
2019-01-09
Linux
2019年中秋節祝福語中秋微信祝福語大全
2019-09-03
新年創意H5！千萬別錯過的新年搶紅包H5小遊戲製作攻略
2022-01-11
H5遊戲
LSTM理解
2020-08-03
RNN、LSTM
2024-07-25
RNN
作畫、寫詩、彈曲子，AI還能這麼玩？
2018-06-20
AI
使用樹莓派製作智慧小車
2020-10-10
樹莓派
2019年簡短的中秋節祝福語，簡單的中秋節祝福語
2019-09-03
使用LSTM模型做股票預測【基於Tensorflow】
2020-11-26
模型
精講RestTemplate第10篇-使用代理作為跳板傳送請求
2020-08-18
REST
8歲上海小學生B站教程式設計驚動蘋果，庫克親送生日祝福
2020-04-06
程式設計蘋果
新年快樂！！！
2019-07-20
帶你用三種不同的工具體驗AI作詩
2023-04-17
AI
虎年福利，好禮送不停！讀書破萬“卷”，聊聊新年第一本書
2022-01-27
Understanding LSTM Networks
2018-09-26
手把手的使用Toolkit外掛在詩情畫意中完成AI詩朗誦
2024-03-14
AI
NLP入門（十）使用LSTM進行文字情感分析
2019-05-18
來自一個小白的祝福
2020-10-02
送春風-10708157-12-29作業
2020-12-30

使用 LSTM 智慧作詩送新年祝福

LSTM 介紹

資料處理

模型構建及訓練

詩詞生成

相關文章