中文短文字摘要資料集
背景
由於目前沒有公開的免費的中文短文字摘要資料集,正好在之前的專案中有收集過這樣的資料。現在把之前整理的資料公開,所有人都可以免費下載使用,希望能成為一個有用的中文短文字摘要資料集。
英文名稱
Chinese Short Text Summarization Dataset
收集方式
資料來源於新浪微博主流媒體釋出的微博。
例如:
微博示例一
微博示例二
微博示例三
如上的三條微博所示中,紅框中的文字作為短文字的摘要,其他的內容作為短文字的內容。
資料量
在這個版本中,一共 679898 條資料,分為兩個檔案:
檔名稱 | 說明 |
---|---|
train_text.txt | 短文字的內容,約100-200字 |
train_label.txt | 短文字的摘要,約10-20字 |
下載方式
百度網盤:
密碼:4k12
Cite as:
{
Author: He Zhengfang
Dataset Name: Chinese Short Text Summarization Dataset
Publish Date: 20th June, 2018.
}
作者:Funzion
連結:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/4692/viewspace-2816247/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 文字自動摘要:基於TextRank的中文新聞摘要
- 利用transformer進行中文文字分類(資料集是復旦中文語料)ORM文字分類
- 利用TfidfVectorizer進行中文文字分類(資料集是復旦中文語料)文字分類
- 文字摘要簡述
- 資料採集之:巧用布隆過濾器提取資料摘要過濾器
- Unity TMPro 中文字型集Unity
- 文字摘要論文列表
- 中文文字相似度計算工具集
- 深度學習用於文字摘要的論文及程式碼集錦深度學習
- 如何自動生成文字摘要
- Oracle Linux 7設定中文字符集OracleLinux
- 助力中文文字識別突破,美團公開首個真實場景招牌影象資料集
- nlp中文字輸入的資料預處理方式
- 使用 Amazon SageMaker 構建文字摘要應用
- 當深度學習遇見自動文字摘要深度學習
- 無監督文字自動摘要野生技術
- 機器學習的文字摘要方法概述 - kdnuggets機器學習
- 編碼、摘要和加密(三)——資料加密加密
- Kakao Brain 的開源 ViT、ALIGN 和 COYO 文字-圖片資料集AI
- 資訊摘要技術
- voc資料集轉換成coco資料集
- 埃森哲:2021技術展望報告–中文摘要
- 短視訊原始碼,密碼框驗證資訊文字提示原始碼密碼
- UCI資料集整理(附論文常用資料集)
- CSS禁止選中文字CSS
- Python 列印中文字元Python字元
- php資料集PHP
- tinyshakespeare資料集
- SST資料集
- Python 潮流週刊#79:Python 的後設資料困境(摘要)Python
- 手把手教你在Python中實現文字分類(附程式碼、資料集)Python文字分類
- 大文字資料,匯入匯出到資料庫資料庫
- 使用coco資料集建立賦值黏貼篡改資料集賦值
- Centos 安裝中文字型CentOS
- xmind 沒有中文字型
- linux安裝中文字型Linux
- 深度解析NLP文字摘要技術:定義、應用與PyTorch實戰PyTorch
- 基於句子嵌入的無監督文字摘要(附程式碼實現)