Common Crawl в GPT-3

К слову, про обучающий датасет для GPT-3:

Common Crawl — открытый индекс интернета, занимает самый большой объем в обучающих данных. Сейчас как раз пишу статью про него.
WebText — датасет собранный OpenAI, лучшего качества чем CC.
Books1 и Books2 — набор текстов книг. Слету не нашел на них ссылок.
Wikipedia — только англоязычная часть.

Нет комментариев 84 2023 GPT Датасеты

Сэм Альтман на подкасте у Лекса Фридмана

Неплохое, немного философское интервью с Сэмом Альтманом, CEO OpenAI.

Меня интересовали технические подробности внутренней кухни компании, но их было мало. Про GPT-4, которая, как оказалось, была готова еще летом 2022, ничего нового, чего не было в релизе или в техническом отчете не добавили. Размер модели неизвестен, датасет неизвестен. Просто сказали, что брались как открытые (возможно, Common Crawl как в GPT-3), так и проприетарные датасеты и полностью переработали пайплайн обучения.

Однако, как мне кажется, одно из самых важных достижений было в том, что они научились предсказывать кривую обучения большой модели по предтренировке малой, что должно экономить кучу сил и времени на этапе подготовки к обучению большой модели. Получается что-то уровня фантастики, когда мы берем годовалого ребенка и можем предсказать, кем он будет к совершеннолетию.

Сильный ИИ

В разговоре про AGI, Сэм прямо подтвердил сомнения Яна Лекуна в том, что большие языковые модели это предшественники сильного искусственного интеллекта. Но, в отличие от Яна, который считает, что мы сошли с пути, Сэм думает, что это просто часть дороги в будущее.

@ylecun в Twitter

Нас всех заменят

Ну и куда же без мема, про замену программистов при помощи ИИ, ага. В общем, после того, как глава самой передовой компании в сфере замены людей на машин заявил, что ему капец как сложно найти людей в команду, понимаешь, что таки да, еще покодим немного.

Нет комментариев 123 2023 ChatGPT GPT OpenAI

Век живи, блин

В API методе, который я делал для сервиса, в HTTP GET запросе заказчик хотел, чтобы одно из полей могло принимать список значений (id’шники юзеров) разделенных точкой с запятой. Вот примерно так:

/api/processUsers?user_ids=1;2;3;4;5

Реализовал нужную функцию в Go, запускаю тест и получаю предупреждение:

http: URL query contains semicolon, which is no longer a supported separator; parts of the query may be stripped when parsed; see golang.org/issue/25192

Оказалось, что W3C в рекомендациях от 1999 года, допускало использование точки с запятой, в качестве разделителя параметров URL, в дополнение к амперсанду.

Это было сделано для сохранения совместимости с SGML (предшественником HTML), в котором амперсанд всегда был началом мнемоники или кода символа (например & amp; или & #39;), откуда возникал конфликт с его использованием в URI. Поэтому, амперсанд в URI приходилось эскейпить, из-за чего уже возникали проблемы парсинга параметров на стороне сервера, а так же у браузера, в том, как их посылать. Поэтому и предложили бахнуть точку с запятой как разделитель, чтобы не иметь проблем с эскейпом.

А в 2014 году, W3C отменил эту рекомендацию и теперь допустимым символом является только амперсанд:

Let strings be the result of strictly splitting the string payload on U+0026 AMPERSAND characters (&).

Надо будет запомнить этот момент и проверять его в тест-кейсах во время обращения в веб-серверу.

Нет комментариев 221 2023 HTML W3C

А нужно ли вообще рассматривать все жалобы в соцсетях?

Наступает неприятный момент, когда модерация социальной сети начинает задыхаться от наплыва жалоб пользователей на контент.

Возникает логичный вопрос: Как уменьшить нагрузку на модераторов?

Да, можно придумать умных AI помощников, классификации жалоб на группы и т. д. Но может, для начала, нужно спросить себя: А важны ли все жалобы от всех пользователей?

Многие жалуются просто из-за плохого настроения или просто потому, что не согласны с мнением оппонента в сетевой диванно-позиционной войне. По сути, это может быть нормальный контент, который просто не нравится конкретному человеку.

Какой выход? Для определенных типов жалоб нужно создавать видимость того, что пользователь был услышан: временно скрывать контент от жалобщика, т. е. в рамках одной сессии поставить

display:none

html блоку или вообще удалить его, а саму жалобу отправить в /dev/null. Если вариантов жалоб несколько, то можно скрыть этот функционал в «Жалобы — Прочее» или прямо так и назвать «Жалобы — Я не согласен с юзером». Работает, проверено.

В самом крайнем случае, ставить счетчик на количество жалоб на пользователя и его контент и по превышению некоторого порога отправлять на модерацию.

Исключение — время прохождения модерации при публикации в AppStore или Google Play, в этот момент нужно включать модерацию любого контента на максимум, особенно 18+. Ведь хрен знает, на что может пожаловаться модератор маркета, а релиз, обычно, очень не хочется задерживать из-за возни с какой-то мелочью.

Нет комментариев 29 2023 Лайфхак

Copilot в России

Собственно, ничего сложного в том, чтобы запустить Copilot в России нет. Нужно иметь западную карточку Visa/Mastercard и указать платежный адрес вне России. И все это лучше делать под VPN.

Пару месяцев назад после установки и настройки сам Copilot работал в РФ без проблем, но лафа закончилась:

Если увидели такое сообщение, то надо включить VPN и перезагрузить VS Code, а то до перезагрузки копилот уже не заработает.

Нет комментариев 700 2023 Copilot VPN

Ранее Ctrl + ↓

Chatbot.name Tgrm.me

Ваш пароль

Блог Артёма Агасиева