Common Crawl в GPT-3

К слову, про обучающий датасет для GPT-3:

  • Common Crawl — открытый индекс интернета, занимает самый большой объем в обучающих данных. Сейчас как раз пишу статью про него.
  • WebText — датасет собранный OpenAI, лучшего качества чем CC.
  • Books1 и Books2 — набор текстов книг. Слету не нашел на них ссылок.
  • Wikipedia — только англоязычная часть.
Поделиться
Отправить
Запинить
 67   2023   GPT   Датасеты
Популярное