NLP入門競賽,搜狗新聞文字分類!拿幾十萬獎金!
該資料集來自若干新聞站點2012年6月—7月期間國內,國際,體育,社會,娛樂等18個頻道的新聞資料。
根據新聞正文內容分析新聞的類別資料集官網連結:
http://www.sogou.com/labs/resource/tce.php.
該資料集樣例格式如下所示:
在 FlyAI競賽平臺上 提供了超詳細的參考程式碼,我們可以通過參加搜狗新聞文字分類預測練習賽進行進一步學習和優化。
1.1、演算法流程及實現
演算法流程主要分為以下四個部分進行介紹:
1.資料載入
2.構建網路
3.模型訓練
1.資料載入
對每條新聞資料的讀取和處理是在processor.py檔案中完成。
具體實現如下:
2.構建網路
由於是搜狗新聞文字類資料,這裡我們可以使用一維卷積Conv1D + BiGRU來構建網路,網路結構如下所示:
執行summary()方法後輸出的網路結構如下圖:
3.模型訓練
這裡我們設定了epoch為5,batch為128,採用adam優化器來訓練網路,EarlyStopping可以加速調參過程。然後通過呼叫FlyAI提供的train_log方法可以在訓練過程中實時的看到訓練集和驗證集的準確率及損失變化曲線。
1.2.最終結果
通過使用自定義CNN網路結構+雙向GRU網路的方法,在epoch為10,batch為128的條件下使用adam優化器下不斷優化模型引數,使用early_stopping規則在model訓練達到early_stopping條件時提前終止訓練提高model優化效率,最終模型在測試集的準確率達到91+。
喜歡文章,點個在看
相關文章
- RestCloud十萬現金大獎RESTCloud
- NLP-使用CNN進行文字分類CNN文字分類
- 新聞推薦競賽-task01
- 【人人都能學得會的NLP - 文字分類篇 03】長文字多標籤分類分類如何做?文字分類
- 系統學習NLP(十九)--文字分類之FastText文字分類AST
- 數理統計——新聞分類
- NLP入門(十)使用LSTM進行文字情感分析
- nlp入門
- 天池新聞推薦入門賽之【資料分析】Task02
- NLP概述和文字自動分類演算法詳解演算法
- 話題挑戰賽開團,千元獎金周邊等你來拿
- 2022 OceanBase資料庫大賽開啟,30W獎金等你來拿!資料庫
- 淺談NLP 文字分類/情感分析 任務中的文字預處理工作文字分類
- 【人人都能學得會的NLP - 文字分類篇 04】層次化多標籤文字分類如何做?文字分類
- DDOS攻擊分為幾大類?網路安全入門教程
- 中文新聞情感分類 Bert-Pytorch-transformersPyTorchORM
- 使用貝葉斯進行新聞分類
- MThings分享大賽,獎品多多,等你來拿
- 演算法競賽C++快速入門演算法C++
- 【火爐煉AI】機器學習039-NLP文字分類器AI機器學習文字分類
- 搞定NLP領域的“變形金剛”!手把手教你用BERT進行多標籤文字分類文字分類
- 除了ACM、CCPC......2021Datathon數智馬拉松大賽也來了!帶著數十萬獎金!ACM
- 【入門知識】網路安全中的漏洞分為哪幾類?
- NLP入門資料
- kaggle再一次入門~經典入門級競賽~Titanic
- 系統學習NLP(二十)--文字聚類聚類
- DDoS攻擊主要分為哪幾類?滲透測試入門必看!
- 【網路安全知識入門】SQL隱碼攻擊分為幾類?SQL
- 文字分類-TextCNN文字分類CNN
- 文字分類模型文字分類模型
- 樸素貝葉斯--新浪新聞分類例項
- 小白nlp入門基礎(一)--nlp簡介
- 陶哲軒支援!AI數學奧林匹克競賽進步獎公佈,獎金100多萬美元AI
- “天府杯”2021國際網路安全大賽報名開啟 150萬美元獎金等你來拿
- NLP入門學習中關於分詞庫HanLP匯入使用教程分詞HanLP
- 《文字遊戲》奪金,《山海旅人》獲三項大獎,2021GWB獨立遊戲大獎賽獲獎名單公佈遊戲
- 演算法競賽入門經典訓練指南 pdf演算法
- 比賽獲獎的武林秘籍:02 國獎秘籍-大學生電子計算機類競賽快速上手的流程,小白必看計算機