Telegram Group Search
А также для любителей cryptoposting from openai basement 🤨
Please open Telegram to view this post
VIEW IN TELEGRAM
Невыдуманная история: сижу на семинаре, где нас попросили кратко представиться и рассказать, какого известного человека ты хотел бы позвать на ужин. Разумеется я сказала, что хотела бы позвать на ужин Юргена Шмидхубера. Оказалось, что препод с этого курса живет в бывшей квартире Юргена и до сих пор у него остался его велосипед…..
Пару дней назад у меня в школе был open Q&A с ресерчером из OpenAI Яном Кирхнером. Ян работает в Superalignment команде, и он один из соавторов очень крутой статьи Weak-to-strong generalization. Если TLDR, это статья про то, как не очень умные хуманы могут в перспективе обучать superhuman AI. В статье они используют GPT-2, чтобы генерировать фидбек для обучения гораздо большей GPT-4. В итоге такой фидбек от weak supervisor все равно получается лучше, чем обычный файнтюн, но разумеется не дотягивает до оригинальной GPT-4

Собственно команда Superalignment занята фундаментальным вопросом, как нам прыгнуть на голову выше человеческого перфоманса. Основная предпосылка тут, что обучаясь на человеческих данных (и на человеческих текстах, и на человеческой разметке), мы так и останемся примерно на уровне среднестатистических людей. Тут это напоминает Goodhart’s law: поскольку человеческая разметка в обучении стала таргетом, а не метрикой, то она перестает быть хорошей метрикой. Ян признается, что infinitely scalable solution for alignment у них еще нет, и что в течение 4-5 лет они надеются либо его найти, либо прийти к тому, что его не существует

Мне это рассуждение напомнило вот этот недавний твит, где автор приводит причины, почему обучаясь на человеческих данных мы все равно можем получить сильный AI:

1. Self-play. В этом году на эту тему вышла сначала статья SPIN, а потом Self-Rewarding Language Models от Meta. В последний модель учится сама быть и генератором, и разметчиком, и итеративно обучается на своем же фидбеке, при этом продолжая наращивать метрики (полоток в этой работе не был достигнут)
2. Aggregated peak performance – ни один участник межнара по математике не может решить все задачи сразу, но модель обучается на решениях всего и сразу
3. Aggregated knowledge – AI может “удерживать” в памяти гораздо больше изученного материала, чем люди в среднем
4. Speed – возможно AI не сможет стать умнее людей, но может значительно обойти из по скорости (см. LLaMA 3 on Groq), а это иногда решает
5. Unique data – можно обучить модель на огромном количестве очень специфичных данных, вроде структур белков, которые предсказывает AlphaFold. Такие данные людям слишком сложно воспринимать самим напрямую, и тем более не в таком объеме

В реплаях там накидали и критики этих тейков (feel free покритиковать их в коментах!), но мне показалось, что этот список неплохой + заставляет задуматься…
Понравился тред о том, какие апдейты касательно GPT-4o OpenAI не показали на презентации, но указали на своем сайте:
1. Очень хорошая генерация текста на картинках (настолько хорошая, что может сама генерировать шрифты, а еще изображения текста с курсивом типа от руки)
2. Text-to-3D из коробки
3. Помимо речи, можно генерировать саунд-эффекты
4. Перенос стиля на изображениях в zero-shot
😭 мы никогда не узнаем, что он увидел
Please open Telegram to view this post
VIEW IN TELEGRAM
я обучала одну модель
😭 мы никогда не узнаем, что он увидел
Похоже e/acc победил в отдельно взятой компании
(Ян один из создателей RLHF и ко-лид Superalignment)
Наверняка вам попадались выдержки из недавнего интервью Джона Шульмана (кофаундера OpenAI) на Dwarkesh Podcast. Вернее даже одна конкретная выдержка, где Джон говорит, что его работу искусственный интеллект заменит через 5 лет

Я решила целиком посмотреть интервью, так как Джон достаточно интересный чел: он первый автор в статье про PPO, лидит команду, которая файнтюнит модели в OAI, а после недавних событий еще и видимо alignment на нем. Так что вот список каких-то интересных его тейков:
- Его главный фокус сейчас на том, чтобы научить модели выполнять длинные и сложные задачи, а не решать мелкие таски за один шаг. Например, хочется чтобы модель не просто подсказала тебе код для конкретной функции, а могла по промпту сделать целый репозиторий. С тем, чтобы обучать модели на таких “длинных” задачах много проблем, но одновременно с этим Джон считает это low-hanging fruit. Решать это он предлагает с помощью RL, видимо как-то адаптировав и улучшив текущие методы тренировки
- Fun fact №1: у gpt-3.5 изначально планировался web browsing, но потом оказалось, что своих знаний у модели достаточно для QA, и особого смысла в этом не оказалось
- Fun fact №2: изначально gpt-3.5 вообще не различала, что она может или не может делать (например, она могла сказать, что успешно отправила кому-то письмо или заказала что-то в магазине). Чтобы это пофиксить оказалось достаточно около 30 примеров в датасете для файнтюна!
- Для обучения ChatGPT данные делились на инструкции и чат. При чем, прототипы модели, которые обучались на чат-данных, оказывались более просты в использовании (лучше понимали, что от них хочет пользователь), выдавали более осмысленные ответы и лучше отдавали себе отчет, что они могут и что не могут выполнить. Объяснение этому Джон видит в том, что в формате инструкций задача “complete this text, but in a nice or helpful way” довольно мутная и непонятная, как для разметчиков, которые готовят данные, так потом и для модели. А качественные чат-данные людям было проще собирать и размечать, так как было понятнее, как именно модель должна ответить. Видимо за счет этого был скачок InstructGPT -> ChatGPT
- Интересная интуиция откуда у больших моделей emergent capabilities: можно представить, что когда у нас столько параметров, модель в латентном пространстве развивает много линий размышления параллельно, и повышается шанс, что какая-то из них будет верной (примерно как происходит в MoE)
- Также довольно необычный комментарий касательно Model Spec (это недавний вайтпейпер о том, какое поведение OAI считает желательным и нежелательным) – Джон сказал, что модели должны быть продолжением воли человека и делать, что от них просят, и что OAI не хочет тут занимать патерналистскую позицию и насаждать свои моральные представления. Снова заставляет задуматься о каком-то проигрыше фракции сейфитистов, так как я не могу представить такой ответ от OAI еще пару лет назад….
- Интересное было объяснение тому, почему модель часто выплевывает очень водянистую и обширную статью в ответ на какой-то вопрос: она тренировалась на одном ответе за раз (а не на всей истории диалога), поэтому она пытается уместить всю информацию в одно сообщение, а не ждет от вас каких-то уточняющих вопросов
- Наконец про следующие шаги в разработке моделей Джон отметил проактивность: в идеале пользователь не будет обращаться к модели как к поисковику с какими-то изолированными запросами. Модель скорее должна быть как helpful colleague, который сам тебе может предложить какие-то решения, напомнить о чем-то, и так далее
У Anthropic вышла очень большая статья про interpretability – они нашли в своей модели Claude Sonnet множество хорошо и четко интерпретируемых фич, отражающих определенные концепты. Многие из них оказались мультилингвальными и даже мультимодальными

В отличие от некоторых предыдущих работ в этой области (например, вот этой от OAI), интерпретировали они не нейроны по-отдельности, а активации. Это важно, потому что логично предположить, что за большинство концептов в LLM отвечают не конкретные нейроны, а какая-то их комбинация. И что скорее всего эта комбинация может быть также размазана между слоями (в limitations к статье отдельно обсуждается cross-layer superposition, кому интересно)

Как конкретно с технической точки зрения находили фичи?
- Активации замеряли в residual stream на каком-то среднем слое сети (каком конкретно не говорят, так как модель проприетарная). Для тех, кто забыл, что такое residual stream (я тоже забыла, не переживайте) – он проходит через все слои трансформера, от входных эмбеддингов до самого последнего линейного слоя. Каждый трансформер-блок (attention-head + MLP) “читает” информацию из него, а результаты его работы плюсуются к этому residual stream, и он итеративно обновляется после после каждого блока. Так что получается, что он “собирает” в себя информацию за последние сколько-то блоков, и логично предположить, что где-то посередине модели он будет в себе содержать какие-то абстрактные идеи и понятия. Попродробнее про residual stream и интуицию за ним можно почитать тут

- Фичи находили с помощью sparse autoencoders. Энкодеру на вход поступает как раз residual stream, который он разворачивает в слой большей размерности. Внутри этого латентного пространства как раз и будут находиться интерпретируемые фичи! Раньше у Anthropic выходила статья, где они это обнаруживали на маленькой игрушечной модели. Помимо того, что декодер учили реконструировать потом по этом фичам активации обратно, еще накидывалась регуляризация, чтобы его веса были в основном sparse (по сути это означает, что каждую активацию, которую мы подаем на вход, мы можем разложить на небольшое количество латентных фич, а остальные занулятся)
После тренировки такой энкодер представляет активации как линейную комбинацию латентных фич, где веса декодера “умножаются” на силу активации

– О данных для обучения SAE особо не говорится в статье, но извлекали фичи из семпла на 10M токенов из The Pile и Common Crawl. В статье пробуются автоэнкодеры трех размеров – 1M, 4M и 34M. В 34M варианте 65% фичей оказались мертыми – они не активировались ни разу на всей выборке

– Чтобы среди всех фичей найти хорошо интерпретируемые, авторы использовали Claude Opus: ему показывали примерно 1000 примеров, где активировалась какая-то фича, с указанием токенов, на которые она реагировала. Opus должен был выдать оценку, есть ли какая-то связь между текстами, или фича не особенно специфичная / не понятно, что именно она отражает. Насколько я понимаю, интерпретацию этих фичей авторы присваивали сами вручную

1/3
Наверное самой известной фичой из этой статьи стала фича моста Золотые Ворота в Сан-Франциско. Как видно из картинки, эта фича детектит описания этого моста, при чем на куче языков и даже на картинках. А при низких значениях активации (= при более низкой специфичности) она в целом детектирует мосты или туристические достопримечательности

На этом же можно посмотреть, как с помощью фичей можно контролировать поведение модели. Во время форвард пасса модели мы можем заменить residual stream c определенного этапа на реконструкцию SAE, где мы “выкрутим” активацию нужной нам фичи на определенное значение (по сути просто умножим на какой-то фактор). Следать так нужно будет во всех последующих слоях и для каждого токена

Так вот, если выкрутить фичу Золотых Ворот в 10 раз, то Claude начнет считать себя мостом Золотые Ворота и сведет любой ваш вопрос к этому мосту. Anthropic даже дали возможность пообщаться с Golden Gate Claude, но сейчас видимо убрали эту модель 😭

Еще некоторые фичи, которые мне понравились:
– Фича, которая перечисляет все районы Лондона
– Несколько фич, которые по сути могут делать хайлайт кода
– Фичи, которые считают элементы в списках
– Фичи, которые находят небезопасный код, например, бэкдоры, и при этом также активируются на картинки со скрытыми камерами, потайными микрофонами, отмычками или всякий прочий spyware

Anthropic по понятным причинам интересуют больше фичи про безопасность. Например, способность находить опасный код, помогать разрабатывать биологическое оружие, намеренно врать людям, стремиться захватить мир и так далее. Авторы надеются, что в будущем можно будет детектировать активацию таких фичей и прекращать генерацию в таком случае

2/3
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/06/19 13:25:11
Back to Top
HTML Embed Code: