Telegram Group Search
Nvidia выпустила своего большого ризонера

В основе — Llama 3.1 405B, которую запрунили до 253B параметров. В целом обгоняет DeepSeek R1 по качеству, причём практически на всех бенчах, в отличие от QwQ 32B, которая обгоняла лишь на отдельных.

Модель влезает в FP8 в 4xH100, но для BF16 уже понадобится 8xH100, либо 4xB100. Для простых смертных они уже пару недель как выпустили модельки поменьше — 8B и 49B, основанные на Llama 8B и 70B соответственно.

Веса

@ai_newz
Вышел DeepCoder 14B Preview

Новый ризонер специально для кода, лидирующий в 14B весовой категории и догоняющий o3-mini и o1, когда они обе на low настройках. Неприятный звоночек — модель не сравнивают с QwQ 32B, основным конкурентом этой модели, а с моделями OpenAI сравнивают только на low настройках. Причём непонятно почему — результаты достойные, даже o3-mini (low) обойти это непросто.

За основу взят DeepSeek R1 Distill 14B, поверх которого запустили RL на 24к задач для кодинга. Это сильно бампануло качество кодинга по сравнению с бейзлайном, при этом случайно улучшив результаты на математике.

Сделали эту модель в колабе с Together AI, это один из клауд провайдеров заточенных специально на ИИ. Я уже писал пару лет назад об их датасете RedPajama, воспроизводящем датасет оригинальной Llama.

А вот самая лучшая часть — авторы опубликовали не только веса, но и код с датасетом. Всё это можно прямо сейчас скачать с 🤗 и гитхаба.

И мы все ближе к маленьким и умелым моделькам, которые можно запускать локально (а 14B можно запускать и на обычном железе) и которые могут заменить проприетарные модели. На этот раз в кодинге. Не устану повторять, что опен сорс – это круто!

Веса

Код
Датасет

@ai_newz
Почему опенсорс – это круто?

Наткнулся на такой тред в X – некоторые люди не понимают, зачем что-то опенсорсить (первый срин). Тут очень простой ответ, если ты большая корпорация - то ты как правило ничего не теряешь от релиза некоторых моделей на публику (при этом не нужно релизить абсолютно все наработки), но взамен приобретаешь следующее:

1️⃣ Можешь застолбить за собой целую область. Так делает, например, Llama, у которой недавно перевалило за 1 млрд скачиваний. Люди из комьюнити будут использовать твой стек технологий, дообучать и строить на базе твоих моделей. Часть полезных улучшений ты можешь перенять и бесплатно использовать для своего продукта. На каждый доллар, потраченный на опенсорс, тебе возвращается польза в кратном размере – это особенно валидно на макроуровне больших компаний и государств.
2️⃣ Это двигает прогресс в целом. В науке всё строится по кирпичикам на базе предыдущих работ. Пример с DeepSeek R1 это подтверждает. Они взяли открытые решения, собрали релевантные статьи, подумали и выкатили переимплементацию ризонинга, который до этого был только у закрытых моделей OpenAI. А дальше все будут строить на базе их модели и продолжать улучшать публичные модели. Еще примеры с LLM на русском: YandexGPT 5 Pro построили модель для русского языка на базе Qwen, а поверх мелкой модели YandexGPT 5 Lite (c llama-like архитектурой) комьюнити теперь строит свои тюны.
3️⃣ С релизами в опенсорс становится проще хайрить людей, ведь они уже знакомы с вашими технологиями.
4️⃣ Репутационный буст - все хотят работать там, где можно показать результаты своей работы наружу, и кроме того вам летят плюсы в карму за поддержку опен-сорс комьюнити.

Это то что с ходу приходит в голову - можно придумать и другие полезные вещи, вытекающие для компаний из опенсорс-релизов. Пишите в комменты свои мысли по этому поводу.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
TPU v7 — Ironwood

Google показали новое поколение TPU, на одном уровне с Blackwell. В новом поколении 4.6 Dense петафлопса на чип — чуть больше чем в B200. Дают 192 гигабайта видеопамяти, с пропускной способностью чуть похуже чем у B200 — 7.4TB/s против 8. Энергоэффективность в два раза лучше чем у Trillium (v6e) и чуть лучше чем у Blackwell.

Новые TPU могут объединятся в поды из over 9000 чипов, только вместо Infiniband/Ethernet там кастомный нетворкинг. Он больше похож на тот, что Nvidia делает в NVL72, но, в отличии от решения Nvidia, которая обещает 576 чипов через NVLink только в 2027, он скейлится на тысячи чипов. Но есть и минусы — TPU v7 даёт всего 1.2TB/s на чип, когда NVLink 5 в GPU Blackwell даёт 1.8TB/s.

Главный вопрос — смогут ли они купить достаточно HBM для массовых деплойментов. Но даже если смогут, не смотря на очень хорошие характеристики, это не конкурент Nvidia. Дело в том, что Google не продаёт TPU другим компаниям, лишь сдаёт в аренду в клауде. Да и сами они не отказываются от массового деплоймента GPU — одних Blackwell компания закупила на 10 миллиардов долларов, правда в основном для Google Cloud.

@ai_newz
HiDream-I1 (17B) - новая txt2img SOTA

Пора бы уже привыкнуть, что нонейм команда из Китая нагибает западные СОТА. HiDream заняла второе место (уже слетела на третье) сразу после GPT 4o на Image Arena. И веса в опенсорсе!

Они взяли VAE от самого удачного открытого Flux и намешали поверх кашу из MoE — двух MMDiT-блоков в одиночном и двойном потоках, туда же насыпали разных энкодеров и декодеров. Аж два клипа: OpenCLIP ViT-bigG и OpenAI CLIP ViT-L, и чисто текстовые: T5-XXL и Llama-3.1-8B-Instruct (что довольно необычно). Никаких данных о том, как это работает, нет, но по всей видимости более продвинутый механизм обработки промпта дает нехилый буст в плане понимания и следования инструкций — и, как следствие, эстетики картинки, в том числе на этапе тренировки.

Есть всего 3 версии одной и той же модели, и они отличаются только количеством шагов. Видимо дистиллировали под разный бюджет на инференсе. Модель на 17B параметров, поэтому она очень медленная и требовательная (62GB VRAM), но это поправимо со временем.

Интересно, что моделька распространяется под лицензией MIT, но вот T5-XXL и Llama-3.1-8B-Instruct — нет. Неловко вышло, однако :)

Кидайте свои генерации в комменты.

Демо, говорят там пожатая модель
Гитхаб
Обнимающее лицо

@ai_newz
Mechanistic permutability: Match across layers

В современных нейронках одна из ключевых проблем интерпретируемости — полисемантичность, когда отдельные нейроны энкодят сразу несколько разных понятий. Sparse autoencoders (SAE) решают эту проблему, обучаясь реконструировать скрытые состояния модели при условии активации лишь небольшого числа нейронов. Метод SAE Match развивает эту концепцию, предлагая data-free технику сопоставления признаков между различными слоями нейросети — исследователи из T-Bank AI Research могут анализировать, как трансформируются признаки при прохождении через модель, не прогоняя через нее новые данные.

Технически SAE Match работает через сопоставление параметров автоэнкодеров, обученных на разных слоях. Ключевая инновация — техника parameter folding, которая интегрирует пороговые значения активации функции JumpReLU в веса энкодера и декодера. Это позволяет учитывать различия в масштабах скрытых состояний между слоями и находить перестановочные матрицы, которые оптимально выравнивают семантически схожие признаки. Авторы формулируют задачу как поиск матрицы перестановок, минимизирующей среднеквадратичную ошибку между параметрами SAE, что математически соответствует максимизации скалярного произведения Фробениуса.

Исследователи валидировали свой подход на языковой модели Gemma 2, минимизируя среднеквадратичную ошибку между параметрами SAE для поиска оптимальных перестановочных матриц, которые выравнивают семантически похожие признаки. Эксперименты показали, что сопоставление признаков работает оптимально в средних и поздних слоях (после 10-го), с сохранением семантической целостности на протяжении примерно пяти последовательных слоев. Это позволяет отслеживать изменения концептов по мере распространения информации через архитектуру сети.

У метода есть практическое применение и в прунинге — авторы успешно аппроксимируют hidden state при пропуске слоев, через операцию кодирования-перестановки-декодирования. Это фактически позволяет оптимизировать модель без существенного снижения качества.

Методология оценки результатов тоже интересная — авторы использовали внешнюю языковую модель для анализа семантического сходства сопоставленных признаков, классифицируя их как "SAME", "MAYBE" или "DIFFERENT". Это позволило объективно оценить качество сопоставления и подтвердить, что метод действительно работает. Статья едет на ICLR 2025 в конце месяца, что показывает её значимость.

Пейпер

@ai_newz
Для Grok 3 вышло API

Дают доступ к двум моделям — Grok 3 и Grok 3 Mini. Контекст — 131к для обеих моделей. Reasoning (в двух режимах — low и high) есть только у Mini версии — изначально на презентации она с ризонингом была заметно лучше полноценного Grok 3. Тогда сказали что это из-за более долгого обучения Mini модели и что полноценную они ещё дообучат, видимо что-то произошло, если за два месяца это сделать не вышло.

Цена — $3/$15 за миллион токенов для Grok 3 и $0.3/$0.5 за Grok 3 Mini. Но это со стандартной скоростью, есть ещё и fast mode для обеих моделей, где стоимость выше — $5/$25 для Grok 3 и $0.5/$4 для Mini. Самое смешное, что не смотря на высокую цену, fast режим сейчас заметно медленнее (по замерам OpenRouter).

Впечатления какие-то смешанные — с одной стороны Grok 3 Mini очень сильная, при этом заметно дешевле o3 mini. С другой стороны полноценному Grok 3 конкурировать предстоит с Gemini 2.5 Pro, GPT 4.5 и Sonnet 3.7, а это крайне сильные конкуренты, у каждого из которых есть что-то, что Grok 3 дать не в состоянии.

x.ai/api

@ai_newz
Нейродайджест за неделю (#64)

LLM
- Llama Nemotron — 253B ризонер от Nvidia сделанный на основе Llama 3.1 405B.
- DeepCoder — затюненный под код DeepSeek R1 14B, очень маленький, да удаленький, и полностью открытый, включая датасет с кодом.
- Grok 3 API — $3/$15 за лям токенов, с неработающим fast режимом.

Генеративные модели
- HiDream-I1 — новый опенсорсный MOE-генератор картинок от Китайцев.
- Бесплатный VEO 2 — пробуем СОТА-модельку в Google Cloud.

Прочее
- Зачем что-то опенсорсить? — и почему это не просто благотворительность.
- TPU v7 Ironwood — аналог Nvidia Blackwell от Google.
- SAE Match — решаем проблемы с полисемантичностью при помощи parameter folding.

> Читать дайджест #63

#дайджест
@ai_newz
На Image Arena ещё одна загадочная t2i модель заняла первое место

Что за Mogao — непонятно, но голосов уже достаточно много чтобы уверенно судить о высоком качестве модели.

Возможно, это очередная китайская модель, по слухам от Dreamina.

@ai_newz
2025/06/29 17:04:14
Back to Top
HTML Embed Code: