Common Crawl в GPT-3
К слову, про обучающий датасет для GPT-3:
![](https://agasiev.com/pictures/2005.14165.pdf-2023-03-25-14-51-03.png)
- Common Crawl — открытый индекс интернета, занимает самый большой объем в обучающих данных. Сейчас как раз пишу статью про него.
- WebText — датасет собранный OpenAI, лучшего качества чем CC.
- Books1 и Books2 — набор текстов книг. Слету не нашел на них ссылок.
- Wikipedia — только англоязычная часть.