Telegram Group Search
Нейродайджест за неделю (#69)
(nice)

LLM
- Codex от OpenAI — кодинг-агент на тюне o3. Чётко слушает инструкции, следует человеческому стилю, можно подключить свой GitHub и идти пить чай, пока модель работает.
- GPT-4.1 в ChatGPT — модель добавили в веб-интерфейс (ранее только API). Контекст 1М не завезли, но обещают значительное улучшение в коде по сравнению с 4o.
- Новые Claude на подходе? — слив от The Information: модели стоит ждать в ближайшие пару недель.
- Техрепорт Qwen3 — есть что почитать.
- Deep Research в PDF— приятное quality-of-life обновление.

Генеративные модели
- Hunyuan Image 2.0 — риалтайм text2img моделька (как Imagine Flash) с хорошей кожей и UI интерфейсом, но на китайском.

Прочее
- Grok опять шалит? — официальный аккаунт Grok для реплаев в Твиттере каждый заданный вопрос уводил в тему геноцида белых в Южной Африке. Что?
- Update по TSMC — новые фабрики, 2-нм GAA-транзисторы, наращивание CoWoS мощностей -> больше, мощнее, быстрее.

> Читать дайджест #68

#дайджест
@ai_newz
😮 Google тестит дифуззионки для текста!

На Google I/O показали Diffusion версию Gemini. Она, при таком же уровне интеллекта, в пять раз быстрее Gemini 2.0 Flash Lite, самой быстрой модели гугла и выдаёт 1479 токенов в секунду! Пока доступно только ограниченное превью для избранных, которым обещают докинуть более умную модель чуть позже.

Очень интересно наблюдать как авторегрессию юзают в генерации изображений и видео, а дифузию в генерации текста. Архитектуры становятся всё ближе и ближе к друг другу.

https://deepmind.google/models/gemini-diffusion/

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Veo 3 — новая лучша модель для генерации видео

Похоже, новая SOTA для видео. Кроме видео может генерить ещё и звуки, в том числе и диалоги! Все видосы в посте были сгенерены чисто через Veo 3. Будет доступна уже сегодня.

@ai_newz
Google AI Ultra

Ну что, у гугла, следом за OpenAI и Anthropic, теперь есть своя дорогущая ИИ подписка. За $250 в месяц 💳 дают гигантские рейт лимиты для Gemini и других сервисов, доступ к Veo 3 через Flow (ИИ редактор видео от гугла) и Project Mariner (computer use агент от гугла). Докидывают 30 терабайт хранилища и ютуб премиум.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Что показали на Google I/O?

Только что завершилась презентация Google, и это, похоже, крупнейшая презентация 2025-го по количеству и качеству новых фишек и инструментов – Google явно учится на прошлогоднем опыте.

Сначала самое жаркое:

- Veo 3 — Veo 2 ещё не успели сместить с пьедестала, а Google уже дропнули 3-ю версию SOTA видеогенератора. Лучше во всём, и теперь с нативной генерацией аудио, включая диалоги с липсинком! Доступна уже сегодня.
- Imagen 4 — опять же, лучше во всём своего предшественника. Остаётся проверить, вдруг это новая SOTA? Уже в проде.
- Agent mode в Gemini — сможет искать квартиру по заданным критериям, используя MCP для доступа к листингам и даже назначать встречи. "скоро"
- AI Mode в Google Поиск — В AI Mode интегрируются агентские возможности Project Mariner: поиск сможет выполнять задачи от имени пользователя (находить билеты, бронировать столики, записываться на услуги). Более того, агент сможет отслеживать цены на товары, уведомлять о снижении и, с разрешения пользователя, совершать покупку через Google Pay. Сам AI мод уже должен быть доступен, но не весь его функционал. Летом обещают завезти туда и Deep Search.
- Примерка в Поиске — теперь можно виртуально примерять одежду на себе с помощью специально обученного ИИ-генератора изображений (на базе Imagen). Доступно в Labs с сегодняшнего дня.
- Риалтайм перевод в Google Meet — сохраняет тон, темп и даже интонацию говорящего. Доступен для подписчиков на английском и испанском, больше языков — "in the next few weeks".
- Обновлённый Gemini Live — теперь включает возможности Project Astra (камера и демонстрация экрана). Скоро сможет подключаться к приложениям Calendar, Maps, Keep и Tasks. Юзкейсов со стримингом с камеры и экрана масса. Доступен в Gemini App.
- Personal Context в Gemini — теперь можно дать разрешение на использование данных из вашего аккаунта Google (например, Gmail, Drive, Docs, Search) для персонализации, хотя пока что готов только доступ к истории поиска. В целом, нейронке теперь будет известно о вас всё. Как-то крипово даже. Обещают "скоро".

Для технарей:

- Jules — агент для кода от Google, прямая ответка на релиз Codex от OpenAI. В раннем доступе гоняли с декабря, а теперь доступен всем на jules.google.
- Gemini Diffusion — экспериментальная диффузионная модель для текста, в 5 раз быстрее Gemini 2.0 Flash Lite (самой быстрой модели Google), при сохранении качества, особенно в коде и математике. 1479 токенов в секунду это не шутка.
- Поддержка MCP в Gemini SDK — Gemini SDK теперь совместим с инструментами Model Context Protocol (MCP от Anthropic), что позволяет агентам получать доступ к другим сервисам. (Видимо, побочный эффект Agent mode).
- Обновлённый Gemini 2.5 Flash — Улучшен по ключевым бенчмаркам (рассуждения, код, длинный контекст) и на 22% эффективнее по использованию токенов, что особенно актуально учитывая разговорчивость 2.5 Flash. Можно заценить в ai.studio и пр.
- API с нативной поддержкой звука — превью text-to-speech в Gemini API поддерживает 2 голоса, более 24 языков, может шептать. + Live API также получит превью 2.5 Flash с нативным аудиодиалогом. Уже доступно.
- Бюджеты на размышления (Thinking Budgets) в Gemini 2.5 Pro — функция для контроля соотношения затрат/задержки и качества ответа появится в 2.5 Pro в ближайшие недели, а в 2.5 Flash она уже месяц.

Mic drop...🎤

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Veo 3– это разъ*б. Кажется, мы действительно не так далее от кастомных развязок в фильма и сериалах. Индустрия развлечений никогда не будет прежней.

Чел склепал такой ролик всего за 2 часа работы с Veo 3. Тут сгенерировано все – и картинка и звук.

@ai_newz
Devstral 24B — лучшая открытая агентная модель для кодинга

Mistral AI и All Hands AI представили Devstral — специализированную LLM для реальных задач в кодинге, с 46.8% на SWE-Bench Verified, что делает её на 6% выше лучших открытых моделей. Это всё несмотря на малый размер — модель влезает в 3090 или Mac с 32 гигами оперативки.

Модель работает через агентные фреймворки (одна из компаний всё же авторы OpenHands) для взаимодействия с кодбазами. Вероятно её хорошо научили пользоваться скафолдингом, из-за чего такие хорошие результаты, даже без ризонинга.

Модель доступна по лицензии Apache 2.0, то есть её спокойно можно использовать в коммерческих целях. Через пару недель обещают модели побольше, но вряд ли настолько же открытые.

Веса
Блогпост

@ai_newz
Anthropic только что релизнули Claude 4 Sonnet и Opus

Модели концентрируются на кодинге и агентах — там они SOTA, в остальных бенчах всё более спорно. Новый клод может заниматься задачей в течении многих часов не сбиваясь, по заявлениям сотрудников Anthropic. Этого хватает для куда более сложных задач, чем те на которые способны другие модели. Цены остаются от старых Sonnet и Opus.

Вместе с моделью анонсировали кучу фич для разработчиков:
В API сегодня запустят code execution tool.
Прямая интеграция Claude в IDE JetBrains и VS Code.
К Claude в API теперь можно напрямую подключаться через MCP.
В API добавили Files API и веб поиск.
Prompt Caching теперь можно расширить до часа.

Блогпост

@ai_newz
Parallel Scaling Law

Обычно LLM масштабируют либо через параметры (Dense, MoE), либо через время инференса (CoT). PARSCALE предлагает третий, "параллельный" путь. Это нечто среднее: умеренное время инференса и умеренное потребление памяти. Суть метода в том, чтобы масштабировать параллельные вычисления, выполняемые моделью, при этом сохраняя количество ее основных параметров практически неизменным.

Работает PARSCALE через механизм обучаемых префиксов. Берём один входной запрос и создаём из него P разных версий, добавляя к каждой свой уникальный префикс. Эти префиксы - не просто текст, а специальные обучаемые векторы (примерно 48 токенов), которые встраиваются в каждый слой внимания модели. Они работают как "линзы", заставляя модель смотреть на один и тот же запрос под разными углами.

Все P версий запроса обрабатываются параллельно через одну и ту же модель, но из-за разных префиксов получаются разные ответы. Эти ответы затем взвешенно смешиваются с помощью небольшой нейросети, которая учится определять, насколько хорошо ответ с каждого потока подходит для каждого токена. P параллельных потоков с разными префиксами дают такой же прирост качества, как увеличение размера модели в log(P) раз. То есть 8 потоков ≈ модель в 3 раза больше, но без реального роста числа параметров.

Главное преимущество PARSCALE — его эффективность в локальном инференсе. При локальном инференсе основной ботлнек — в загрузке данных из памяти на чип, так что батчинг запросов практически не влияет на задержку. Для модели размером 1.6 млрд параметров, использование PARSCALE с P=8 требует до 22 раз меньше дополнительной оперативной памяти и обеспечивает до 6 раз меньший дополнительный прирост задержки по сравнению с масштабированием параметров до аналогичного уровня качества (при batch size = 1). Особенно хорошо PARSCALE проявляется на генерации кода и математике. Кроме того, это применимо к любой архитектуре, данным и задачам.

Для снижения затрат на обучение авторы предлагают использовать PARSCALE лишь на посттрейн стадии. Это работает и с уже существующими моделями путем их дообучения с PARSCALE, причем даже с замороженными весами основной модели, обучая только компоненты PARSCALE (PEFT-подход). Тема интересная, у облачного и локального инференса разные ботлнеки, так что архитектуры тоже должны отличаться. Всё для того чтобы локальные модели были быстрее и дешевле.

Пейпер
Код с моделями

@ai_newz
Нейродайджест за неделю (#70)
Юбилейный и неделя Google

Google I/O
- Дайджест по презентации — собрал все фишки с пояснениями, что как работает.
- Gemini Diffusion — экспериментальная диффузионная модель для текста, в 5 раз быстрее Gemini 2.0 Flash Lite (самой быстрой модели Google), при сохранении качества (но это не точно), особенно в коде и математике. 1479 токенов в секунду — это не шутка.
- Veo 3 — Veo 2 ещё не успели сместить с пьедестала, а Google уже дропнули 3-ю версию SOTA видеогенератора. Лучше во всём, и теперь с нативной генерацией аудио, включая диалоги с липсинком (пример).

LLM
- Devstral 24B — король опенсорс кодинга; если поднимать на своей машине — то его. Влезает в 3090.
- Claude 4 Sonnet и Opus — SOTA для кода и агентов, остальное тоже неплохо + фишки для API.

Ликбез

- Parallel Scaling Law — большой разбор параллельного масштабирования с фокусом через баланс между временем инференса и потребления памяти. Полезно для локального инференса.

> Читать дайджест #69

#дайджест
@ai_newz
NVIDIA готовит новые GPU для Китая

Судя по утечкам, речь идёт о GPU с рабочим названием B40/6000D: та же архитектура Blackwell, но урезанное число SM и с меньшей пропускной способностью памяти в ≈1,7 ТБ/с — это как раз нижний порог, разрешённый Минторгом США для поставок в Китай. Это чуть ниже чем у 5090, и заметно меньше не только серверных B100/B200 (у тех по 8ТБ/с), но и H20, у которой 4ТБ/с. Серийное производство стартует уже в следующем месяце.

Главные компромиссы: вместо HBM3e ставят обычную GDDR7 с 448-битной шиной, без дорогой и дефицитной CoWoS упаковки чипа на TSMC— чип можно паять на более простых платах. По цене новые карты выйдут по 6,5–8k$ против 10–12k$ у заблокированного H20, что позволит получить производительностью чуть ниже Hopper, но заметно выше оставшихся разрешённых чипов.

Стратегия понятна: сохранить долю рынка, которая уже просела до ~50% из-за Huawei Ascend 910B и местных ASIC, и одновременно не нарушить экспортные правила. Второй, ещё более урезанный Blackwell (кодовое имя B25) запланирован к мас-продакшену к сентябрю, если первая партия пройдёт валидацию. При этом Nvidia признаёт, что совокупный убыток от санкций может дойти до 15B$ (из-за блокировки H20 уже пришлось списать инвентаря на 5 миллиардов), и новые специализированные линейки — их единственный быстрый способ остаться в китайских ИИ-центрах.

@ai_newz
Стенфордский курс по внутреннему устройству LLM

CS336, Language Modeling from Scratch, показывает, как сделать полноценную LLM с нуля: от сбора и очистки датасета до тренировки, профайлинга и развёртывания модели. Все конспекты, ноутбуки и код сразу публикуют в открытой репе, так что можно повторять эксперименты дома хоть на одной-двух карточках или в колабе.

Курс сделан с большим упором на практику — в качестве пяти домашних заданий предлагают имплементировать сначала чистый Transformer с нуля, затем кастомный FlashAttention 2 на Triton, распределённую тренировку, разобраться со scaling laws, фильтрацей датасета и применением RL в LLM. Требования — уверенный Python и PyTorch.

Лекции на ютубе
Материалы к лекциям
Сайт курса

@ai_newz
Media is too big
VIEW IN TELEGRAM
В Telegram интегрируют Grok

Ещё марте подписчикам Telegram Premium дали доступ к Grok через бота, похоже партнёрство решили расширить, а расширенный функционал появится уже летом. Интеграция будет крайне глубокой: Grok сможет суммаризировать чаты, ссылки и файлы, помогать в написании сообщений, модерировать чаты, фактчекать посты в каналах и создавать стикеры с аватарами.

Соглашение заключено на год, в его рамках телеграм получит $300m в деньгах и акциях xAI, плюс 50% выручки от подписок оформленных через Telegram. Что получает xAI взамен — непонятно, вероятно данные которые юзеры скормлят в грока.

@ai_newz
Сейчас в универах большой спрос на экспертов в машинном обучении, ведь ИИ развивается как сумасшедший. Кто-то полностью фокусируется на преподавании, кто-то умудряется совмещать с работой в компаниях.

Яндекс решил поддержать тех, кто занимается подготовкой нового поколения спецов, которым предстоит создавать AI-native мир. До 22 июня можно подать заявку на научно-образовательную премию Yandex ML Prize — там не только деньги, но и гранты на облачную инфру для исследований. Есть три номинации: опытные преподаватели, начинающие педагоги и руководители образовательных программ.

Если знаете лекторов, которые ведут курсы по ML, нейронкам, ИИ и смежным дисциплинам— скиньте им инфу про премию. Может, именно их студенты через пару лет будут двигать нас к AGI. А пока важно, чтобы у этих людей был стимул продолжать, несмотря на все сложности передавать знания в такой быстро меняющейся сфере.

@ai_newz
DeepSeek R1 обновили

По традиции 🐳 выложили веса без деталей, они появятся позже. Модель уже доступна в чате, API пока не обновили.

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

@ai_newz
А вот и бенчи DeepSeek R1 0528

Прокачали знатно — модель теперь уверенно обходит Qwen 3 235B, но отстаёт от Gemini 2.5 Pro и o3, хоть и не так сильно. Прирост во многом объясняется выросшим количеством размышлений — в среднем 23к токенов, против 12к токенов у прошлой версии. Кроме прокачки по бенчам, модель теперь меньше галлюцинирует и лучше делает фронтенд (но до клода очевидно не дотягивает).

Кроме релиза большой версии, цепочки рассуждений из новой DeepSeek R1 дистиллировали в Qwen 3 8B. После такого тюна модель стала заметно лучше на математических бенчах. Уже можно скачать с 🤗.

Большая модель
8B дистил

@ai_newz
Сегодня GPT-3 исполнилось пять лет

Хороший повод вспомнить насколько всё сильно изменилось за эти пять лет. Старушка GPT-3 это LLM на 175 миллиардов параметров, с датасетом всего лишь в 300 миллиардов токенов и длиной контекста в 2048 токенов. Со времени релиза размеры датасетов и длина контекста выросли многократно — Qwen 3 тренировали на 36 триллионах токенов, а у последних версий Gemini и GPT 4.1 по миллиону токенов контекста.

Сейчас у нас есть модели со в сто раз меньшим количеством параметров и с уровнем интеллекта на уровне GPT-3, благодаря росту размеров и качества датасетов. Но эти новые модели умеют гораздо больше. У новых моделей всё чаще есть мультимодальность причём часто не только на вход, но и на выход — модели могут не только понимать, но и нативно генерировать изображения и звук.

Но самое главное — кардинально изменился подход к обучению. Если GPT-3 была чисто авторегрессионной моделью, предсказывающей следующий токен, то современные модели проходят через сложный процесс посттрейна. Их учат следовать инструкциям, отвечать на вопросы и выполнять задачи, а не просто продолжать текст. RLHF и подобные методы сделали модели полезными ассистентами, а не генераторами правдоподобного текста. Но на этом всё не остановилось — за последний год многие модели научили ризонингу, за чем последовал огромный прогресс в верифицируемых доменах вроде кода и математики.

Изменилось и то, как мы используем эти модели. GPT-3 умела только генерировать текст, а современные LLM стали полноценными агентами. Они могут хорошо искать в интернете, вызывают функции и API, пишут и исполняют код прямо в процессе ответа. Function calling и протоколы вроде MCP дали возможность моделям не просто рассказать как решить задачу, но и решить её — написать код, запустить его, проанализировать результаты и исправить ошибки.

Параллельно произошла революция в железе. В 2020 году кластер OpenAI из 10 тысяч V100 считался очень большим. Сегодня xAI планирует кластер на миллион GPU, для OpenAI строят Stargate, а другие компании рутинно оперируют сотнями тысяч ускорителей. Но дело не только в масштабе — изменился сам подход к вычислениям. Модели теперь тренируют в fp8, тогда как даже в 2020 году очень часто использовали fp32, но и это не предел — первые эксперименты с fp4 показывают многообещающие результаты (тык, тык). Агрессивная квантизация позволила запускать модели в 4 битах практически без потери качества, сжав их в разы.

И что особенно важно — всё это стало доступным. Если GPT-3 был закрытым API за деньги, то сегодня модели уровня GPT-3.5 можно запустить на своём телефоне. Open-source сообщество догоняет корпорации, а инструменты для файнтюнинга позволяют адаптировать модели под любые задачи. AI перестал быть игрушкой для избранных и реально стал массовым.

Вот э тайм ту би элайв!

@ai_newz
2025/05/30 00:38:08
Back to Top
HTML Embed Code: