語料內容
該庫蒐集了包含chatterbot、豆瓣多輪、PTT八卦語料、青雲語料、電視劇對白語料、貼吧論壇回帖語料、微博語料小黃雞語料共8個公開閒聊常用語料和簡訊,並對其進行了統一化規整和處理,達到直接可以粗略使用的目的。
使用方法
下載語料
網盤連結:
https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取碼:f2ex
將解壓後的raw_chat_corpus資料夾放到當前目錄下 目錄結構為:
raw_chat_corpus -- language -- process_pipelines -- raw_chat_corpus ---- chatterbot-1k ---- douban-multiturn-100w ---- .... -- main.py -- ...
執行命令即可
python main.py
生成結果
每個來源的語料分別生成一個獨立的*.tsv檔案,都放在新生成的clean_chat_corpus資料夾下。
生成結果格式為 tsv格式,每行是一個樣本,先是query,再是answer
query \t answer
Github地址:
https://github.com/codemayq