深度學習之新聞多分類問題

無風聽海發表於2021-04-15

原文網址 : https://www.cnblogs.com/wufengtinghai/p/14664759.html

平時除了遇到二分類問題，碰到最多的就是多分類問題，例如我們釋出blogs時候選擇的tag等。如果每個樣本只關聯一個標籤則是單標籤多分類，如果每個樣本可以關聯多個樣本，則是多標籤多分類。今天我們來看下新聞的多分類問題。

一、資料集

這裡使用路透社在1986年釋出的資料集，它包含很多的短新聞及其對應的主題，它包含46個主題，是一個簡單的被廣泛使用的分類資料集。

    def load_data(self):
        return reuters.load_data(num_words=self.num_words)
        
    
    (train_data, train_labels), (test_data, test_labels) = self.load_data()
        print(len(train_data))
        print(len(test_data))
        print(train_data[0])
        print(train_labels[0])

可以看到有8982個訓練樣本及2246個測試樣本，同時也可以看到第一個訓練樣本的內容和標籤都是數字。

8982
2246
[1, 2, 2, 8, 43, 10, 447, 5, 25, 207, 270, 5, 3095, 111, 16, 369, 186, 90, 67, 7, 89, 5, 19, 102, 6, 19, 124, 15, 90, 67, 84, 22, 482, 26, 7, 48, 4, 49, 8, 864, 39, 209, 154, 6, 151, 6, 83, 11, 15, 22, 155, 11, 15, 7, 48, 9, 4579, 1005, 504, 6, 258, 6, 272, 11, 15, 22, 134, 44, 11, 15, 16, 8, 197, 1245, 90, 67, 52, 29, 209, 30, 32, 132, 6, 109, 15, 17, 12]
3

看下第一個訓練樣本的實際內容

    def get_text(self, data):
        word_id_index = reuters.get_word_index()
        id_word_index = dict([(id, value) for (value, id) in word_id_index.items()])
        return ' '.join([id_word_index.get(i - 3, '?') for i in data])
        
    
    print(self.get_text(train_data[0]))

執行後的樣本內容

? ? ? said as a result of its december acquisition of space co it expects earnings per share in 1987 of 1 15 to 1 30 dlrs per share up from 70 cts in 1986 the company said pretax net should rise to nine to 10 mln dlrs from six mln dlrs in 1986 and rental operation revenues to 19 to 22 mln dlrs from 12 5 mln dlrs it said cash flow per share this year should be 2 50 to three dlrs reuter 3

二、資料格式化

使用one-hot方式編碼訓練資料

    def vectorize_sequences(self, sequences, dimension=10000):
        results = np.zeros((len(sequences), dimension))
        for i,sequence in enumerate(sequences):
            results[i, sequence] = 1.
        return results
    
    self.x_train = x_train = self.vectorize_sequences(train_data)
    self.x_test = x_test = self.vectorize_sequences(test_data)

編碼標籤資料

    def to_one_hot(self, labels, dimension=46):
        results = np.zeros((len(labels), dimension))
        for i,label in enumerate(labels):
            results[i, label] = 1
        return results
        
    self.one_hot_train_labels = one_hot_train_labels = self.to_one_hot(train_labels)
    self.one_hot_test_labels = one_hot_test_labels = self.to_one_hot(test_labels)

三、構建模型

這裡有46個新聞類別，所以中間層的維度不能太少，否則丟失的資訊太多，這裡我們使用64個隱藏單元。

        model = self.model = models.Sequential()
        model.add(layers.Dense(64, activation='relu', input_shape=(10000,)))
        model.add(layers.Dense(64, activation='relu'))
        model.add(layers.Dense(46, activation='softmax'))
        model.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics='accuracy')

最後一層輸出是46個維度的向量，每個維度程式碼樣本屬於對應分類的概率。
這裡使用便於計算兩個概率分佈距離的分類交叉熵作為損失函式。

四、校驗模型

從訓練集中保留一部分作為校驗資料集。

        x_val = x_train[:1000]
        partial_x_train = x_train[1000:]

        y_val = one_hot_train_labels[:1000]
        partial_y_train = one_hot_train_labels[1000:]

還是以512個樣本作為一個小的批次，訓練20輪。

        history = model.fit(partial_x_train, partial_y_train, epochs=self.epochs, batch_size=512, validation_data=(x_val, y_val))

繪製損失曲線圖

    def plt_loss(self, history):
        plt.clf()
        loss = history.histroy['loss']
        val_loss = history.histroy['val_loss']
        epochs = range(1, len(loss) + 1)
        plt.plot(epochs, loss, 'bo', label='Training loss')
        plt.plot(epochs, val_loss, 'b', label='Validation loss')
        plt.xlabel('Epochs')
        plt.ylabel('Loss')
        plt.legend()
        plt.show()

繪製準確度曲線

    def plt_accuracy(self, history):
        plt.clf()
        acc = history.history['accuracy']
        val_acc = history.history['val_accuracy']
        epochs = range(1, len(acc) + 1)

        plt.plot(epochs, acc, 'bo', label='Training accuracy')
        plt.plot(epochs, val_acc, 'b', label='Validation accuracy')
        plt.xlabel('Epochs')
        plt.ylabel('Accuracy')
        plt.legend()
        plt.show()

從圖中可以看到訓練到第九輪之後開始出現過擬合，改為9輪進行訓練模型，並在測試機上評估模型。

    def evaluate(self):
        results = self.model.evaluate(self.x_test, self.one_hot_test_labels)
        print('evaluate test data:')
        print(results)

最終訓練之後精度可以達到79%。

evaluate test data:
[0.9847680330276489, 0.7925200462341309]

五、總結

網路最後一層的大小應該跟類別的數量保持一致；
單標籤多分類問題，最後一層需要使用softmax啟用函式，方便輸出概率分佈。
單標籤多分類問題，需要使用分類交叉熵作為損失函式。
中間層的維度不能小於輸出標籤數量。

完整原始碼

from tensorflow.keras.datasets import reuters
import numpy as np
from tensorflow.keras import models
from tensorflow.keras import layers
import matplotlib.pyplot as plt


class MultiClassifier:

    def __init__(self, num_words, epochs):
        self.num_words = num_words
        self.epochs = epochs
        self.model = None
        self.eval = False if epochs == 20 else True

    def load_data(self):
        return reuters.load_data(num_words=self.num_words)

    def get_text(self, data):
        word_id_index = reuters.get_word_index()
        id_word_index = dict([(id, value) for (value, id) in word_id_index.items()])
        return ' '.join([id_word_index.get(i - 3, '?') for i in data])

    def vectorize_sequences(self, sequences, dimension=10000):
        results = np.zeros((len(sequences), dimension))
        for i,sequence in enumerate(sequences):
            results[i, sequence] = 1.
        return results

    def to_one_hot(self, labels, dimension=46):
        results = np.zeros((len(labels), dimension))
        for i,label in enumerate(labels):
            results[i, label] = 1
        return results

    def plt_loss(self, history):
        plt.clf()
        loss = history.history['loss']
        val_loss = history.history['val_loss']
        epochs = range(1, len(loss) + 1)
        plt.plot(epochs, loss, 'bo', label='Training loss')
        plt.plot(epochs, val_loss, 'b', label='Validation loss')
        plt.xlabel('Epochs')
        plt.ylabel('Loss')
        plt.legend()
        plt.show()

    def plt_accuracy(self, history):
        plt.clf()
        acc = history.history['accuracy']
        val_acc = history.history['val_accuracy']
        epochs = range(1, len(acc) + 1)

        plt.plot(epochs, acc, 'bo', label='Training accuracy')
        plt.plot(epochs, val_acc, 'b', label='Validation accuracy')
        plt.xlabel('Epochs')
        plt.ylabel('Accuracy')
        plt.legend()
        plt.show()

    def evaluate(self):
        results = self.model.evaluate(self.x_test, self.one_hot_test_labels)
        print('evaluate test data:')
        print(results)


    def train(self):
        (train_data, train_labels), (test_data, test_labels) = self.load_data()
        print(len(train_data))
        print(len(test_data))
        print(train_data[0])
        print(train_labels[0])
        print(self.get_text(train_data[0]))

        self.x_train = x_train = self.vectorize_sequences(train_data)
        self.x_test = x_test = self.vectorize_sequences(test_data)

        self.one_hot_train_labels = one_hot_train_labels = self.to_one_hot(train_labels)
        self.one_hot_test_labels = one_hot_test_labels = self.to_one_hot(test_labels)

        model = self.model = models.Sequential()
        model.add(layers.Dense(64, activation='relu', input_shape=(10000,)))
        model.add(layers.Dense(64, activation='relu'))
        model.add(layers.Dense(46, activation='softmax'))
        model.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics='accuracy')

        x_val = x_train[:1000]
        partial_x_train = x_train[1000:]

        y_val = one_hot_train_labels[:1000]
        partial_y_train = one_hot_train_labels[1000:]

        history = model.fit(partial_x_train, partial_y_train, epochs=self.epochs, batch_size=512, validation_data=(x_val, y_val))



        if self.eval:
            self.evaluate()
            print(self.model.predict(x_test))
        else:
            self.plt_loss(history)
            self.plt_accuracy(history)

classifier = MultiClassifier(num_words=10000, epochs=20)

# classifier = MultiClassifier(num_words=10000, epochs=9)
classifier.train()

keras框架下的深度學習（二）二分類和多分類問題
2021-10-26
Keras框架深度學習
【火爐煉AI】深度學習009-用Keras遷移學習提升效能（多分類問題）
2019-03-02
AI深度學習Keras遷移學習
【火爐煉AI】深度學習010-Keras微調提升效能（多分類問題）
2018-11-15
AI深度學習Keras
深度學習之電影二分類的情感問題
2021-04-13
深度學習
【機器學習基礎】正則化及多分類問題總結
2021-10-27
機器學習
教你如何使用PyTorch解決多分類問題
2023-11-22
PyTorch
多分類學習及糾錯輸出碼
2024-07-27
深度學習（二）之貓狗分類
2022-03-20
深度學習
【火爐煉AI】機器學習009-用邏輯迴歸分類器解決多分類問題
2018-08-06
AI機器學習邏輯迴歸
淺談深度學習落地問題
2018-10-15
深度學習
【火爐煉AI】機器學習010-用樸素貝葉斯分類器解決多分類問題
2018-08-06
AI機器學習
淺談深度學習的落地問題
2021-02-21
深度學習
深度學習（四）之電影評論分類
2022-04-08
深度學習
深度學習（一）之MNIST資料集分類
2022-03-18
深度學習
機器學習之分類問題度量
2020-02-14
機器學習
深度學習問題記錄：Building your Deep Neural
2021-09-09
深度學習UI
學習筆記17：DenseNet實現多分類（卷積基特徵提取）
2024-06-04
筆記SENet卷積特徵
《深度學習之TensorFlow》pdf
2019-12-17
深度學習
深度學習之Tensorflow框架
2019-02-20
深度學習框架
自我學習與理解：keras框架下的深度學習（三）迴歸問題
2021-12-27
Keras框架深度學習
小程式雲開發之新聞類專案分析
2018-11-19
40個機器學習&深度學習最佳資源集合（書籍、課程、新聞部落格、論文等）
2019-03-18
機器學習深度學習
HMS Core機器學習服務影像超分能力，基於深度學習提升新聞閱讀體驗
2022-03-28
機器學習深度學習
JavaScript之類操作：HTML5 canvas多分屏示例
2018-09-20
JavaScriptHTMLCanvas
深度學習也解決不掉語音識別問題
2019-03-04
深度學習
深度強化學習中稀疏獎勵問題Sparse Reward
2021-08-03
強化學習
深度學習基礎之 Dropout
2020-04-06
深度學習
深度學習之Transformer網路
2022-12-27
深度學習ORM
機器學習中的類別不均衡問題
2018-09-26
機器學習
A-深度學習面試題
2022-11-22
深度學習面試題
機器學習和深度學習中值得弄清楚的一些問題
2019-05-22
機器學習深度學習
【讀書1】【2017】MATLAB與深度學習——異或問題(1)
2018-10-15
Matlab深度學習
用深度學習解決競爭性編碼問題 | DeepMind
2022-02-04
深度學習
機器學習(三)：理解邏輯迴歸及二分類、多分類程式碼實踐
2021-02-01
機器學習邏輯迴歸
深度學習之遷移學習介紹與使用
2018-10-24
深度學習遷移學習
深度學習之PyTorch實戰（4）——遷移學習
2023-03-26
深度學習PyTorch遷移學習
Laravel 學習之 XSRF-TOKEN 驗證問題
2019-02-16
Laravel
深度學習tensorflow 之 distorted_inputs
2020-10-11
深度學習

深度學習之新聞多分類問題

相關文章