Common Crawl в GPT-3
К слову, про обучающий датасет для GPT-3:
- Common Crawl — открытый индекс интернета, занимает самый большой объем в обучающих данных. Сейчас как раз пишу статью про него.
- WebText — датасет собранный OpenAI, лучшего качества чем CC.
- Books1 и Books2 — набор текстов книг. Слету не нашел на них ссылок.
- Wikipedia — только англоязычная часть.