<?xml version="1.0" encoding="utf-8"?> 
<rss version="2.0"
  xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd"
  xmlns:atom="http://www.w3.org/2005/Atom">

<channel>

<title>Блог Артёма Агасиева: заметки с тегом Датасеты</title>
<link>https://agasiev.com/tags/datasety/</link>
<description>Telegram: @aagasiev</description>
<author>Артём Агасиев</author>
<language>ru</language>
<generator>E2 (v3576; Aegea)</generator>

<itunes:owner>
<itunes:name>Артём Агасиев</itunes:name>
<itunes:email></itunes:email>
</itunes:owner>
<itunes:subtitle>Telegram: @aagasiev</itunes:subtitle>
<itunes:image href="" />
<itunes:explicit></itunes:explicit>

<item>
<title>Common Crawl в GPT-3</title>
<guid isPermaLink="false">107</guid>
<link>https://agasiev.com/all/common-crawl-v-gpt-3/</link>
<pubDate>Sun, 26 Mar 2023 02:23:32 +0300</pubDate>
<author>Артём Агасиев</author>
<comments>https://agasiev.com/all/common-crawl-v-gpt-3/</comments>
<description>
&lt;p&gt;&lt;a href="https://agasiev.com/all/sem-altman-na-podkaste-u-leksa-fridmana/"&gt;К слову, про обучающий датасет&lt;/a&gt; для GPT-3:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://agasiev.com/pictures/2005.14165.pdf-2023-03-25-14-51-03.png" width="1282" height="428" alt="" /&gt;
&lt;/div&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href="https://commoncrawl.org/"&gt;Common Crawl&lt;/a&gt; — открытый индекс интернета, занимает самый большой объем в обучающих данных. Сейчас как раз пишу статью про него.&lt;/li&gt;
&lt;li&gt;WebText — датасет собранный OpenAI, лучшего качества чем CC.&lt;/li&gt;
&lt;li&gt;Books1 и Books2 — набор текстов книг. Слету не нашел на них ссылок.&lt;/li&gt;
&lt;li&gt;Wikipedia — только англоязычная часть.&lt;/li&gt;
&lt;/ul&gt;
</description>
</item>


</channel>
</rss>