1 заметка с тегом

Датасеты

Common Crawl в GPT-3

К слову, про обучающий датасет для GPT-3:

  • Common Crawl — открытый индекс интернета, занимает самый большой объем в обучающих данных. Сейчас как раз пишу статью про него.
  • WebText — датасет собранный OpenAI, лучшего качества чем CC.
  • Books1 и Books2 — набор текстов книг. Слету не нашел на них ссылок.
  • Wikipedia — только англоязычная часть.
 Нет комментариев    62   2023   GPT   Датасеты