中文公開聊天語料庫及使用方法(附連結)

THU資料派發表於2019-03-13

語料內容

該庫蒐集了包含chatterbot、豆瓣多輪、PTT八卦語料、青雲語料、電視劇對白語料、貼吧論壇回帖語料、微博語料小黃雞語料共8個公開閒聊常用語料和簡訊,並對其進行了統一化規整和處理,達到直接可以粗略使用的目的。

中文公開聊天語料庫及使用方法(附連結)

中文公開聊天語料庫及使用方法(附連結)

使用方法

下載語料

網盤連結:

https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取碼:f2ex

將解壓後的raw_chat_corpus資料夾放到當前目錄下 目錄結構為:

raw_chat_corpus -- language -- process_pipelines -- raw_chat_corpus ---- chatterbot-1k ---- douban-multiturn-100w ---- .... -- main.py -- ...

執行命令即可

python main.py

生成結果

每個來源的語料分別生成一個獨立的*.tsv檔案,都放在新生成的clean_chat_corpus資料夾下。

生成結果格式為 tsv格式,每行是一個樣本,先是query,再是answer

query \t answer

Github地址:

https://github.com/codemayq

相關文章