中文短文字摘要資料集
背景
由於目前沒有公開的免費的中文短文字摘要資料集,正好在之前的專案中有收集過這樣的資料。現在把之前整理的資料公開,所有人都可以免費下載使用,希望能成為一個有用的中文短文字摘要資料集。
英文名稱
Chinese Short Text Summarization Dataset
收集方式
資料來源於新浪微博主流媒體釋出的微博。
例如:
微博示例一
微博示例二
微博示例三
如上的三條微博所示中,紅框中的文字作為短文字的摘要,其他的內容作為短文字的內容。
資料量
在這個版本中,一共 679898 條資料,分為兩個檔案:
檔名稱 | 說明 |
---|---|
train_text.txt | 短文字的內容,約100-200字 |
train_label.txt | 短文字的摘要,約10-20字 |
下載方式
百度網盤:
密碼:4k12
Cite as:
{
Author: He Zhengfang
Dataset Name: Chinese Short Text Summarization Dataset
Publish Date: 20th June, 2018.
}
作者:Funzion
連結:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/4692/viewspace-2816247/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 利用transformer進行中文文字分類(資料集是復旦中文語料)ORM文字分類
- 利用TfidfVectorizer進行中文文字分類(資料集是復旦中文語料)文字分類
- 資料採集之:巧用布隆過濾器提取資料摘要過濾器
- Unity TMPro 中文字型集Unity
- 文字摘要論文列表
- 中文文字相似度計算工具集
- 深度學習用於文字摘要的論文及程式碼集錦深度學習
- Codis叢集搭建摘要
- 深入淺出資料字典摘要
- 助力中文文字識別突破,美團公開首個真實場景招牌影象資料集
- 機器學習的文字摘要方法概述 - kdnuggets機器學習
- 文字自動摘要工具 TextTeaser 開源
- Oracle Linux 7設定中文字符集OracleLinux
- 英文字符集CSV-sqlldr到中文庫SQL
- nlp中文字輸入的資料預處理方式
- 使用 Amazon SageMaker 構建文字摘要應用
- 資料庫系統概述(章節摘要)資料庫
- NLP相關問題中文字資料特徵表達初探特徵
- 當深度學習遇見自動文字摘要深度學習
- 無監督文字自動摘要野生技術
- 如何在Ubuntu下新增中文字符集支援(解決中文亂碼問題)Ubuntu
- 中文維基百科文字資料獲取與預處理
- 編碼、摘要和加密(三)——資料加密加密
- 使用PHP向MySQL資料庫匯入資料,中文字元顯示亂碼問題PHPMySql資料庫字元
- 中文字符集與字元編碼的基礎知識字元
- voc資料集轉換成coco資料集
- UCI資料集整理(附論文常用資料集)
- 終於有人把機器學習中的文字摘要解釋清楚了!機器學習
- php資料集PHP
- SST資料集
- oracle資料集Oracle
- 【nls_character】中文字元亂碼問題與字符集的修改字元
- CSS禁止選中文字CSS
- 文字直接寫資料庫資料庫
- Kakao Brain 的開源 ViT、ALIGN 和 COYO 文字-圖片資料集AI
- 人工智慧大資料,公開的海量資料集下載,ImageNet資料集下載,資料探勘機器學習資料集下載人工智慧大資料機器學習
- 最強資料集集合:50個最佳機器學習公共資料集機器學習
- 使用coco資料集建立賦值黏貼篡改資料集賦值