包含近 20 萬本圖書,OpenAI 級別的訓練資料集上線

数据派THU發表於2020-11-03

包含近 20 萬本圖書,OpenAI 級別的訓練資料集上線

近日,機器學習社群的一篇資源熱貼「用於訓練 GPT 等大型語言模型的 196640 本純文字書籍資料集」引發了熱烈的討論。

該資料集涵蓋了截至 2020 年 9 月所有大型文字語料庫的下載連結。除此之外,它還包含了所有的 bibliotik(一個線上圖書資源庫)中書籍的純文字,以及大量用於訓練的程式碼。
包含近 20 萬本圖書,OpenAI 級別的訓練資料集上線
資料集中除文字資料外,還包含了 100GB 的訓練程式碼

196640 冊圖書資料,訓練你的 GPT


reddit 的機器學習社群上,網友 Shawn Presser 釋出了一套純文字資料集,得到一致好評。

這些資料集中共包含 196640 冊純文字資料,可以用於訓練 GPT 等大型語言模型

由於這套資料集包含多個資料集以及訓練程式碼,我們在此不一一贅述,僅將其中的 books1 與 books3 資料集的具體資訊列出:

圖書純文字資料集

釋出作者:Shawn Presser

包含數量:books1:1800 冊圖書;book3:196640 冊圖書

資料格式:txt 格式

資料大小:books1:2.2 GB;books3:37 GB

更新時間:2020 年 10 月

下載地址:https://hyper.ai/datasets/13642

據資料集整理者 Shawn Presser 介紹,這些資料集的質量是非常高的,僅 books1 資料集,就花費了他大約一週的時間,對 epub2txt 指令碼進行修復。

此外,他還表示,books3 資料集似乎與 OpenAI 的論文中神秘的「books2」資料集相似。但是,由於 OpenAI 並沒有提供這方面的詳細資訊,所以也無法瞭解二者之間的任何差異。

不過,在他看來,這份資料集極其接近 GPT-3 的訓練資料集。擁有它,下一步,你也可以訓練出與 GPT-3 相匹敵的 NLP 語言模型,當然,還有一個條件是,你還需要準備足夠的 GPU。
包含近 20 萬本圖書,OpenAI 級別的訓練資料集上線
資料集中 books1 資料集部分內容示例

據介紹,books1 資料集中 1800 本圖書文字資料,都來自於大型文字語料庫 BookCorpus,其中包括詩歌類、小說類等。

比如美國作家 Kristie Lynn Higgins 的《Shades of Gray:Noir, City Shrouded By Darkness》(《灰色陰影:被黑暗籠罩的城市》)、Benjamin Broke 的《Animal Theater》(《動物劇院》)、T·I·韋德的《America One》(《美國一號》)等。

強大的 GPT-3 背後,訓練資料集立功勞


關注自然語言處理領域的小夥伴都知道,今年 5 月,OpenAI 斥巨資打造的自然語言處理模型 GPT-3,憑藉驚人的文字生成能力,在業界引起高度關注,並且一直以來熱度不減。

GPT-3 不僅可以更好地答題、翻譯、寫文章,還帶有一些數學計算的能力。而它之所以擁有這些強大的能力,離不開背後巨量的訓練資料集。
包含近 20 萬本圖書,OpenAI 級別的訓練資料集上線
GPT-3 訓練資料集一覽
據介紹,GPT-3 使用的訓練資料集十分龐大,基於包含近 1 萬億單詞量的 CommonCrawl 資料集、網路文字、資料、維基百科等資料,它使用的最大資料集在處理前容量達到了 45TB,其訓練費用也達到驚人的 1200 萬美元。

更大的訓練資料集、更多的模型引數,讓 GPT-3 在自然語言處理模型中一騎絕塵。

然而,對於普通開發者來說,想要訓練出一流的語言模型,暫且不說高昂的訓練成本,僅僅在訓練資料集這一步,就會被卡住。

因此,Shawn Presser 帶來的資料集無疑解決了這一難題,一些網友表示,這項工作他們節省了巨大的成本。

我們目前已經將 books1 資料集搬運至 https://hyper.ai,搜尋關鍵詞「書籍」或「文字」獲取資料集。
包含近 20 萬本圖書,OpenAI 級別的訓練資料集上線
其它資料集可從以下連結中獲取:

books3 資料集下載地址:

https://the-eye.eu/public/AI/pile_preliminary_

components/books3.tar.gz

訓練程式碼下載地址:

https://the-eye.eu/public/AI/pile_preliminary_

components/github.tar

reddit 原帖:

https://www.reddit.com/r/MachineLearning/comments/ji7y06/p_dataset_of_196640_books_in_plain_text_for/

相關文章