中文情感分類單標籤

接上一篇：

你所不知道的 Transformer！

超詳細的 Bert 文字分類原始碼解讀 | 附原始碼

章節：

背景介紹
預處理

完整的 GitHub 專案程式碼地址：

https://github.com/sherlcok314159/ML/blob/main/nlp/practice/sentiment.md

背景介紹

這次的任務是中文的一個評論情感去向分類：

每一行一共有三個部分，第一個是索引，無所謂；第二個是評論具體內容；第三個是標籤，由0，1，2組成，1代表很好，2是負面評論，0應該是情感取向中立。

資料預處理

bert模型是可以通用的，但是不同資料需要透過預處理來達到滿足bert輸入的標準才行。

首先，我們創造一個讀入自己資料的類，名為MyDataProcessor。其實，這個可以借鑑一下谷歌寫好的例子，比如說MrpcProcessor。

首先將DataProcessor類複製貼上一下，然後命名為MyDataProcessor，別忘了繼承一下DataProcessor。

接下來我們以get_train_examples為例來簡單介紹一下如何讀入自己的資料。

第一步我們需要讀取檔案進來，這裡需要注意的是中文要額外加一個utf-8編碼。

讀取好之後，這裡模仿建立train_data為空列表，索引值為0。

程式碼主體跟其他的差不多，有區別的是我們這裡並沒有用DataProcessor的_read_tsv方法，所以檔案分割部分我們得自己寫。同時因為中文每行結束會有換行符（”\n”），需要換為空白。

至於dev和test資料集處理方式大同小異，只需要將名字換一下，這裡不多贅述，這裡放了處理訓練集的完整函式。

然後get_labels方法，裡面寫具體的labels，這裡是0，1，2，那麼就是0，1，2，注意不要忘了帶上英文引號就行。最重要的是去main(_)方法下面新增自己定義的資料處理類別

模型去bert官方下載中文的預訓練模型，其他的對著改改就好，相信看過我的文字分類（https://github.com/sherlcok314159/ML/blob/main/nlp/tasks/text.md）的剩下的都不需要多說。跑出來的結果如下，我用的是Tesla K80，白嫖Google Colab的，用時1h17min47s。

html標籤分類
2018-04-28
HTML
中文新聞情感分類 Bert-Pytorch-transformers
2019-12-24
PyTorchORM
常用的標籤分類有哪些
2024-03-11
課時13.標籤的分類（掌握）
2018-06-12
ssycms常用分類列表頁面的呼叫標籤
2024-07-13
pyhanlp文字分類與情感分析
2019-02-20
HanLP文字分類
HTML的標籤分為哪幾類?各標籤語法格式是怎樣的?
2021-08-10
HTML
JSTL標籤工具類
2021-08-21
JS
利用LSTM做語言情感分類
2018-09-08
表單標籤
2020-11-09
內容分類擴充套件性標籤設計
2019-03-22
套件
如何用Python和機器學習訓練中文文字情感分類模型？
2018-06-27
Python機器學習模型
【人人都能學得會的NLP - 文字分類篇 03】長文字多標籤分類分類如何做？
2024-11-30
文字分類
第 9 篇：實現分類、標籤、歸檔日期介面
2020-06-12
LLM應用實戰: 產業治理多標籤分類
2024-08-20
產業
標籤評分：海量標籤如何進行系統治理？
2022-10-13
html的標籤元素分為哪幾大類？分別有什麼作用？
2024-12-01
HTML
JavaScript各類標籤的使用
2020-11-04
JavaScript
概念篇-多分類多標籤
2021-05-22
html-表單標籤
2018-10-31
HTML
HTML之簡單標籤
2018-03-16
HTML
HTML之表單標籤
2018-03-17
HTML
【HTML】06表單標籤
2024-03-08
HTML
[外掛擴充套件]onethink自定義分類標籤-關聯模型
2019-05-11
套件模型
簡單有效的多標準中文分詞詳解
2018-12-28
中文分詞
1.CNN圖片單標籤分類（基於TensorFlow實現基礎VGG16網路）
2018-12-05
CNN
snownlp類庫（中文情感分析）原始碼註釋及使用
2019-05-14
原始碼
常用HTML標籤3：表單
2018-11-14
HTML
HTML標籤，簡單歸納
2019-01-18
HTML
canvas標籤簡單介紹
2018-09-07
Canvas
好程式設計師分享CSS標籤的分類、及顯示模式
2019-07-01
程式設計師CSS模式
【人人都能學得會的NLP - 文字分類篇 04】層次化多標籤文字分類如何做？
2024-12-01
文字分類
Flutter 標籤類控制元件大全Chip
2020-05-10
Flutter控制元件
自動分類打標籤！飛槳TSM模型幫你做視訊理解
2019-08-16
模型
1.4 常用HTML標籤3：表單
2018-11-09
HTML
MPLS BGP標籤分發過程——Vecloud
2021-03-09
Cloud
如何用50行程式碼構建情感分類器
2018-06-20
行程
HTML表單標籤詳解：如何用HTML標籤打造互動網頁？
2024-03-19
HTML網頁

中文情感分類單標籤

背景介紹

資料預處理

相關文章