NLP入門競賽,搜狗新聞文字分類!拿幾十萬獎金!
該資料集來自若干新聞站點2012年6月—7月期間國內,國際,體育,社會,娛樂等18個頻道的新聞資料。
根據新聞正文內容分析新聞的類別資料集官網連結:
http://www.sogou.com/labs/resource/tce.php.
該資料集樣例格式如下所示:
在 FlyAI競賽平臺上 提供了超詳細的參考程式碼,我們可以通過參加搜狗新聞文字分類預測練習賽進行進一步學習和優化。
1.1、演算法流程及實現
演算法流程主要分為以下四個部分進行介紹:
1.資料載入
2.構建網路
3.模型訓練
1.資料載入
對每條新聞資料的讀取和處理是在processor.py檔案中完成。
具體實現如下:
2.構建網路
由於是搜狗新聞文字類資料,這裡我們可以使用一維卷積Conv1D + BiGRU來構建網路,網路結構如下所示:
執行summary()方法後輸出的網路結構如下圖:
3.模型訓練
這裡我們設定了epoch為5,batch為128,採用adam優化器來訓練網路,EarlyStopping可以加速調參過程。然後通過呼叫FlyAI提供的train_log方法可以在訓練過程中實時的看到訓練集和驗證集的準確率及損失變化曲線。
1.2.最終結果
通過使用自定義CNN網路結構+雙向GRU網路的方法,在epoch為10,batch為128的條件下使用adam優化器下不斷優化模型引數,使用early_stopping規則在model訓練達到early_stopping條件時提前終止訓練提高model優化效率,最終模型在測試集的準確率達到91+。
喜歡文章,點個在看
相關文章
- RestCloud十萬現金大獎RESTCloud
- NLP-使用CNN進行文字分類CNN文字分類
- 系統學習NLP(十九)--文字分類之FastText文字分類AST
- 天池新聞推薦入門賽之【資料分析】Task02
- 【火爐煉AI】機器學習039-NLP文字分類器AI機器學習文字分類
- 【NLP】TensorFlow實現CNN用於文字分類(譯)CNN文字分類
- NLP入門(十)使用LSTM進行文字情感分析
- nlp入門
- NLP概述和文字自動分類演算法詳解演算法
- 【NLP】TensorFlow實現CNN用於中文文字分類CNN文字分類
- 淺談NLP 文字分類/情感分析 任務中的文字預處理工作文字分類
- 【機器學習PAI實踐七】文字分析演算法實現新聞自動分類機器學習AI演算法
- MThings分享大賽,獎品多多,等你來拿
- 演算法競賽入門經典_5 c++與STL入門演算法C++
- ML/NLP入門教程Python版(第一部分:文字處理)Python
- 2022 OceanBase資料庫大賽開啟,30W獎金等你來拿!資料庫
- DDOS攻擊分為幾大類?網路安全入門教程
- kaggle再一次入門~經典入門級競賽~Titanic
- 大資料競賽平臺——Kaggle 入門篇大資料
- 除了ACM、CCPC......2021Datathon數智馬拉松大賽也來了!帶著數十萬獎金!ACM
- NLP入門資料
- 《文字遊戲》奪金,《山海旅人》獲三項大獎,2021GWB獨立遊戲大獎賽獲獎名單公佈遊戲
- 【入門知識】網路安全中的漏洞分為哪幾類?
- 演算法競賽入門經典訓練指南 pdf演算法
- 系統學習NLP(二十)--文字聚類聚類
- 文字分類-TextCNN文字分類CNN
- 文字分類模型文字分類模型
- DDoS攻擊主要分為哪幾類?滲透測試入門必看!
- 【網路安全知識入門】SQL隱碼攻擊分為幾類?SQL
- 小白nlp入門基礎(一)--nlp簡介
- Python NLP入門教程Python
- 67萬+獎金池支援遊戲創新!2023金海豚獎遊戲作品大賽啟動徵集!遊戲
- 演算法競賽入門經典--紫書6.3.1小球下落演算法
- NLP入門學習中關於分詞庫HanLP匯入使用教程分詞HanLP
- 東華OJ 陣列競賽 分糖果陣列
- “天府杯”2021國際網路安全大賽報名開啟 150萬美元獎金等你來拿
- 鑄博皇御貴金屬:炒黃金入門這幾點別忽略
- 獎金三萬,猿人學爬蟲對抗大賽來啦爬蟲