tinyshakespeare資料集

立体风發表於2024-08-04

tinyshakespeare 是一個小型的莎士比亞文字資料集,它包含了莎士比亞的戲劇和詩歌的文字。這個資料集是由 llm.c 專案建立的,用於訓練和測試語言模型。

tinyshakespeare 資料集的特點是:

  • 它是一個小型的資料集,包含了約 1.2 萬行文字。
  • 它包含了莎士比亞的戲劇和詩歌的文字,包括《哈姆雷特》、《麥克白》、《奧賽羅》等。
  • 文字是經過預處理的,包括了分詞、去停用詞、去標點符號等。
  • 資料集是以純文字格式儲存的,可以直接用於語言模型的訓練和測試。

tinyshakespeare 資料集的目的在於:

  • 為語言模型提供一個小型的、易於處理的資料集,用於訓練和測試。
  • 為研究人員提供一個基準資料集,用於評估語言模型的效能。
  • 為開發人員提供一個示例資料集,用於開發和測試語言模型。

tinyshakespeare 資料集可以從 llm.c 專案的 GitHub 頁面下載。

相關文章