中文短文字摘要資料集

daxuesheng發表於2021-09-09

背景

由於目前沒有公開的免費的中文短文字摘要資料集,正好在之前的專案中有收集過這樣的資料。現在把之前整理的資料公開,所有人都可以免費下載使用,希望能成為一個有用的中文短文字摘要資料集。

英文名稱

Chinese Short Text Summarization Dataset

收集方式

資料來源於新浪微博主流媒體釋出的微博。
例如:


圖片描述

微博示例一


圖片描述

微博示例二


圖片描述

微博示例三


如上的三條微博所示中,紅框中的文字作為短文字的摘要,其他的內容作為短文字的內容。

資料量

在這個版本中,一共 679898 條資料,分為兩個檔案:

檔名稱 說明
train_text.txt 短文字的內容,約100-200字
train_label.txt 短文字的摘要,約10-20字

下載方式

百度網盤:
密碼:4k12

Cite as:

{
Author: He Zhengfang
Dataset Name: Chinese Short Text Summarization Dataset
Publish Date: 20th June, 2018.
}



作者:Funzion
連結:


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/4692/viewspace-2816247/,如需轉載,請註明出處,否則將追究法律責任。

相關文章