Telegram Group Search
Veo 3 — новая лучша модель для генерации видео

Похоже, новая SOTA для видео. Кроме видео может генерить ещё и звуки, в том числе и диалоги! Все видосы в посте были сгенерены чисто через Veo 3. Будет доступна уже сегодня.

@ai_newz
Google AI Ultra

Ну что, у гугла, следом за OpenAI и Anthropic, теперь есть своя дорогущая ИИ подписка. За $250 в месяц 💳 дают гигантские рейт лимиты для Gemini и других сервисов, доступ к Veo 3 через Flow (ИИ редактор видео от гугла) и Project Mariner (computer use агент от гугла). Докидывают 30 терабайт хранилища и ютуб премиум.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Что показали на Google I/O?

Только что завершилась презентация Google, и это, похоже, крупнейшая презентация 2025-го по количеству и качеству новых фишек и инструментов – Google явно учится на прошлогоднем опыте.

Сначала самое жаркое:

- Veo 3 — Veo 2 ещё не успели сместить с пьедестала, а Google уже дропнули 3-ю версию SOTA видеогенератора. Лучше во всём, и теперь с нативной генерацией аудио, включая диалоги с липсинком! Доступна уже сегодня.
- Imagen 4 — опять же, лучше во всём своего предшественника. Остаётся проверить, вдруг это новая SOTA? Уже в проде.
- Agent mode в Gemini — сможет искать квартиру по заданным критериям, используя MCP для доступа к листингам и даже назначать встречи. "скоро"
- AI Mode в Google Поиск — В AI Mode интегрируются агентские возможности Project Mariner: поиск сможет выполнять задачи от имени пользователя (находить билеты, бронировать столики, записываться на услуги). Более того, агент сможет отслеживать цены на товары, уведомлять о снижении и, с разрешения пользователя, совершать покупку через Google Pay. Сам AI мод уже должен быть доступен, но не весь его функционал. Летом обещают завезти туда и Deep Search.
- Примерка в Поиске — теперь можно виртуально примерять одежду на себе с помощью специально обученного ИИ-генератора изображений (на базе Imagen). Доступно в Labs с сегодняшнего дня.
- Риалтайм перевод в Google Meet — сохраняет тон, темп и даже интонацию говорящего. Доступен для подписчиков на английском и испанском, больше языков — "in the next few weeks".
- Обновлённый Gemini Live — теперь включает возможности Project Astra (камера и демонстрация экрана). Скоро сможет подключаться к приложениям Calendar, Maps, Keep и Tasks. Юзкейсов со стримингом с камеры и экрана масса. Доступен в Gemini App.
- Personal Context в Gemini — теперь можно дать разрешение на использование данных из вашего аккаунта Google (например, Gmail, Drive, Docs, Search) для персонализации, хотя пока что готов только доступ к истории поиска. В целом, нейронке теперь будет известно о вас всё. Как-то крипово даже. Обещают "скоро".

Для технарей:

- Jules — агент для кода от Google, прямая ответка на релиз Codex от OpenAI. В раннем доступе гоняли с декабря, а теперь доступен всем на jules.google.
- Gemini Diffusion — экспериментальная диффузионная модель для текста, в 5 раз быстрее Gemini 2.0 Flash Lite (самой быстрой модели Google), при сохранении качества, особенно в коде и математике. 1479 токенов в секунду это не шутка.
- Поддержка MCP в Gemini SDK — Gemini SDK теперь совместим с инструментами Model Context Protocol (MCP от Anthropic), что позволяет агентам получать доступ к другим сервисам. (Видимо, побочный эффект Agent mode).
- Обновлённый Gemini 2.5 Flash — Улучшен по ключевым бенчмаркам (рассуждения, код, длинный контекст) и на 22% эффективнее по использованию токенов, что особенно актуально учитывая разговорчивость 2.5 Flash. Можно заценить в ai.studio и пр.
- API с нативной поддержкой звука — превью text-to-speech в Gemini API поддерживает 2 голоса, более 24 языков, может шептать. + Live API также получит превью 2.5 Flash с нативным аудиодиалогом. Уже доступно.
- Бюджеты на размышления (Thinking Budgets) в Gemini 2.5 Pro — функция для контроля соотношения затрат/задержки и качества ответа появится в 2.5 Pro в ближайшие недели, а в 2.5 Flash она уже месяц.

Mic drop...🎤

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Veo 3– это разъ*б. Кажется, мы действительно не так далее от кастомных развязок в фильма и сериалах. Индустрия развлечений никогда не будет прежней.

Чел склепал такой ролик всего за 2 часа работы с Veo 3. Тут сгенерировано все – и картинка и звук.

@ai_newz
Devstral 24B — лучшая открытая агентная модель для кодинга

Mistral AI и All Hands AI представили Devstral — специализированную LLM для реальных задач в кодинге, с 46.8% на SWE-Bench Verified, что делает её на 6% выше лучших открытых моделей. Это всё несмотря на малый размер — модель влезает в 3090 или Mac с 32 гигами оперативки.

Модель работает через агентные фреймворки (одна из компаний всё же авторы OpenHands) для взаимодействия с кодбазами. Вероятно её хорошо научили пользоваться скафолдингом, из-за чего такие хорошие результаты, даже без ризонинга.

Модель доступна по лицензии Apache 2.0, то есть её спокойно можно использовать в коммерческих целях. Через пару недель обещают модели побольше, но вряд ли настолько же открытые.

Веса
Блогпост

@ai_newz
Anthropic только что релизнули Claude 4 Sonnet и Opus

Модели концентрируются на кодинге и агентах — там они SOTA, в остальных бенчах всё более спорно. Новый клод может заниматься задачей в течении многих часов не сбиваясь, по заявлениям сотрудников Anthropic. Этого хватает для куда более сложных задач, чем те на которые способны другие модели. Цены остаются от старых Sonnet и Opus.

Вместе с моделью анонсировали кучу фич для разработчиков:
В API сегодня запустят code execution tool.
Прямая интеграция Claude в IDE JetBrains и VS Code.
К Claude в API теперь можно напрямую подключаться через MCP.
В API добавили Files API и веб поиск.
Prompt Caching теперь можно расширить до часа.

Блогпост

@ai_newz
Parallel Scaling Law

Обычно LLM масштабируют либо через параметры (Dense, MoE), либо через время инференса (CoT). PARSCALE предлагает третий, "параллельный" путь. Это нечто среднее: умеренное время инференса и умеренное потребление памяти. Суть метода в том, чтобы масштабировать параллельные вычисления, выполняемые моделью, при этом сохраняя количество ее основных параметров практически неизменным.

Работает PARSCALE через механизм обучаемых префиксов. Берём один входной запрос и создаём из него P разных версий, добавляя к каждой свой уникальный префикс. Эти префиксы - не просто текст, а специальные обучаемые векторы (примерно 48 токенов), которые встраиваются в каждый слой внимания модели. Они работают как "линзы", заставляя модель смотреть на один и тот же запрос под разными углами.

Все P версий запроса обрабатываются параллельно через одну и ту же модель, но из-за разных префиксов получаются разные ответы. Эти ответы затем взвешенно смешиваются с помощью небольшой нейросети, которая учится определять, насколько хорошо ответ с каждого потока подходит для каждого токена. P параллельных потоков с разными префиксами дают такой же прирост качества, как увеличение размера модели в log(P) раз. То есть 8 потоков ≈ модель в 3 раза больше, но без реального роста числа параметров.

Главное преимущество PARSCALE — его эффективность в локальном инференсе. При локальном инференсе основной ботлнек — в загрузке данных из памяти на чип, так что батчинг запросов практически не влияет на задержку. Для модели размером 1.6 млрд параметров, использование PARSCALE с P=8 требует до 22 раз меньше дополнительной оперативной памяти и обеспечивает до 6 раз меньший дополнительный прирост задержки по сравнению с масштабированием параметров до аналогичного уровня качества (при batch size = 1). Особенно хорошо PARSCALE проявляется на генерации кода и математике. Кроме того, это применимо к любой архитектуре, данным и задачам.

Для снижения затрат на обучение авторы предлагают использовать PARSCALE лишь на посттрейн стадии. Это работает и с уже существующими моделями путем их дообучения с PARSCALE, причем даже с замороженными весами основной модели, обучая только компоненты PARSCALE (PEFT-подход). Тема интересная, у облачного и локального инференса разные ботлнеки, так что архитектуры тоже должны отличаться. Всё для того чтобы локальные модели были быстрее и дешевле.

Пейпер
Код с моделями

@ai_newz
Нейродайджест за неделю (#70)
Юбилейный и неделя Google

Google I/O
- Дайджест по презентации — собрал все фишки с пояснениями, что как работает.
- Gemini Diffusion — экспериментальная диффузионная модель для текста, в 5 раз быстрее Gemini 2.0 Flash Lite (самой быстрой модели Google), при сохранении качества (но это не точно), особенно в коде и математике. 1479 токенов в секунду — это не шутка.
- Veo 3 — Veo 2 ещё не успели сместить с пьедестала, а Google уже дропнули 3-ю версию SOTA видеогенератора. Лучше во всём, и теперь с нативной генерацией аудио, включая диалоги с липсинком (пример).

LLM
- Devstral 24B — король опенсорс кодинга; если поднимать на своей машине — то его. Влезает в 3090.
- Claude 4 Sonnet и Opus — SOTA для кода и агентов, остальное тоже неплохо + фишки для API.

Ликбез

- Parallel Scaling Law — большой разбор параллельного масштабирования с фокусом через баланс между временем инференса и потребления памяти. Полезно для локального инференса.

> Читать дайджест #69

#дайджест
@ai_newz
NVIDIA готовит новые GPU для Китая

Судя по утечкам, речь идёт о GPU с рабочим названием B40/6000D: та же архитектура Blackwell, но урезанное число SM и с меньшей пропускной способностью памяти в ≈1,7 ТБ/с — это как раз нижний порог, разрешённый Минторгом США для поставок в Китай. Это чуть ниже чем у 5090, и заметно меньше не только серверных B100/B200 (у тех по 8ТБ/с), но и H20, у которой 4ТБ/с. Серийное производство стартует уже в следующем месяце.

Главные компромиссы: вместо HBM3e ставят обычную GDDR7 с 448-битной шиной, без дорогой и дефицитной CoWoS упаковки чипа на TSMC— чип можно паять на более простых платах. По цене новые карты выйдут по 6,5–8k$ против 10–12k$ у заблокированного H20, что позволит получить производительностью чуть ниже Hopper, но заметно выше оставшихся разрешённых чипов.

Стратегия понятна: сохранить долю рынка, которая уже просела до ~50% из-за Huawei Ascend 910B и местных ASIC, и одновременно не нарушить экспортные правила. Второй, ещё более урезанный Blackwell (кодовое имя B25) запланирован к мас-продакшену к сентябрю, если первая партия пройдёт валидацию. При этом Nvidia признаёт, что совокупный убыток от санкций может дойти до 15B$ (из-за блокировки H20 уже пришлось списать инвентаря на 5 миллиардов), и новые специализированные линейки — их единственный быстрый способ остаться в китайских ИИ-центрах.

@ai_newz
Стенфордский курс по внутреннему устройству LLM

CS336, Language Modeling from Scratch, показывает, как сделать полноценную LLM с нуля: от сбора и очистки датасета до тренировки, профайлинга и развёртывания модели. Все конспекты, ноутбуки и код сразу публикуют в открытой репе, так что можно повторять эксперименты дома хоть на одной-двух карточках или в колабе.

Курс сделан с большим упором на практику — в качестве пяти домашних заданий предлагают имплементировать сначала чистый Transformer с нуля, затем кастомный FlashAttention 2 на Triton, распределённую тренировку, разобраться со scaling laws, фильтрацей датасета и применением RL в LLM. Требования — уверенный Python и PyTorch.

Лекции на ютубе
Материалы к лекциям
Сайт курса

@ai_newz
Media is too big
VIEW IN TELEGRAM
В Telegram интегрируют Grok

Ещё марте подписчикам Telegram Premium дали доступ к Grok через бота, похоже партнёрство решили расширить, а расширенный функционал появится уже летом. Интеграция будет крайне глубокой: Grok сможет суммаризировать чаты, ссылки и файлы, помогать в написании сообщений, модерировать чаты, фактчекать посты в каналах и создавать стикеры с аватарами.

Соглашение заключено на год, в его рамках телеграм получит $300m в деньгах и акциях xAI, плюс 50% выручки от подписок оформленных через Telegram. Что получает xAI взамен — непонятно, вероятно данные которые юзеры скормлят в грока.

@ai_newz
Сейчас в универах большой спрос на экспертов в машинном обучении, ведь ИИ развивается как сумасшедший. Кто-то полностью фокусируется на преподавании, кто-то умудряется совмещать с работой в компаниях.

Яндекс решил поддержать тех, кто занимается подготовкой нового поколения спецов, которым предстоит создавать AI-native мир. До 22 июня можно подать заявку на научно-образовательную премию Yandex ML Prize — там не только деньги, но и гранты на облачную инфру для исследований. Есть три номинации: опытные преподаватели, начинающие педагоги и руководители образовательных программ.

Если знаете лекторов, которые ведут курсы по ML, нейронкам, ИИ и смежным дисциплинам— скиньте им инфу про премию. Может, именно их студенты через пару лет будут двигать нас к AGI. А пока важно, чтобы у этих людей был стимул продолжать, несмотря на все сложности передавать знания в такой быстро меняющейся сфере.

@ai_newz
DeepSeek R1 обновили

По традиции 🐳 выложили веса без деталей, они появятся позже. Модель уже доступна в чате, API пока не обновили.

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

@ai_newz
А вот и бенчи DeepSeek R1 0528

Прокачали знатно — модель теперь уверенно обходит Qwen 3 235B, но отстаёт от Gemini 2.5 Pro и o3, хоть и не так сильно. Прирост во многом объясняется выросшим количеством размышлений — в среднем 23к токенов, против 12к токенов у прошлой версии. Кроме прокачки по бенчам, модель теперь меньше галлюцинирует и лучше делает фронтенд (но до клода очевидно не дотягивает).

Кроме релиза большой версии, цепочки рассуждений из новой DeepSeek R1 дистиллировали в Qwen 3 8B. После такого тюна модель стала заметно лучше на математических бенчах. Уже можно скачать с 🤗.

Большая модель
8B дистил

@ai_newz
Сегодня GPT-3 исполнилось пять лет

Хороший повод вспомнить насколько всё сильно изменилось за эти пять лет. Старушка GPT-3 это LLM на 175 миллиардов параметров, с датасетом всего лишь в 300 миллиардов токенов и длиной контекста в 2048 токенов. Со времени релиза размеры датасетов и длина контекста выросли многократно — Qwen 3 тренировали на 36 триллионах токенов, а у последних версий Gemini и GPT 4.1 по миллиону токенов контекста.

Сейчас у нас есть модели со в сто раз меньшим количеством параметров и с уровнем интеллекта на уровне GPT-3, благодаря росту размеров и качества датасетов. Но эти новые модели умеют гораздо больше. У новых моделей всё чаще есть мультимодальность причём часто не только на вход, но и на выход — модели могут не только понимать, но и нативно генерировать изображения и звук.

Но самое главное — кардинально изменился подход к обучению. Если GPT-3 была чисто авторегрессионной моделью, предсказывающей следующий токен, то современные модели проходят через сложный процесс посттрейна. Их учат следовать инструкциям, отвечать на вопросы и выполнять задачи, а не просто продолжать текст. RLHF и подобные методы сделали модели полезными ассистентами, а не генераторами правдоподобного текста. Но на этом всё не остановилось — за последний год многие модели научили ризонингу, за чем последовал огромный прогресс в верифицируемых доменах вроде кода и математики.

Изменилось и то, как мы используем эти модели. GPT-3 умела только генерировать текст, а современные LLM стали полноценными агентами. Они могут хорошо искать в интернете, вызывают функции и API, пишут и исполняют код прямо в процессе ответа. Function calling и протоколы вроде MCP дали возможность моделям не просто рассказать как решить задачу, но и решить её — написать код, запустить его, проанализировать результаты и исправить ошибки.

Параллельно произошла революция в железе. В 2020 году кластер OpenAI из 10 тысяч V100 считался очень большим. Сегодня xAI планирует кластер на миллион GPU, для OpenAI строят Stargate, а другие компании рутинно оперируют сотнями тысяч ускорителей. Но дело не только в масштабе — изменился сам подход к вычислениям. Модели теперь тренируют в fp8, тогда как даже в 2020 году очень часто использовали fp32, но и это не предел — первые эксперименты с fp4 показывают многообещающие результаты (тык, тык). Агрессивная квантизация позволила запускать модели в 4 битах практически без потери качества, сжав их в разы.

И что особенно важно — всё это стало доступным. Если GPT-3 был закрытым API за деньги, то сегодня модели уровня GPT-3.5 можно запустить на своём телефоне. Open-source сообщество догоняет корпорации, а инструменты для файнтюнинга позволяют адаптировать модели под любые задачи. AI перестал быть игрушкой для избранных и реально стал массовым.

Вот э тайм ту би элайв!

@ai_newz
Помните как Claude 4 уведомлял власти если видел серьёзное правонарушение?

После выхода system card многие возмутились — ведь LLM всё ещё часто галлюцинируют и могут что-то не так понять, а потом разбирайся с органами. Но когда такой же промпт попробовали дать другим моделям, они, внезапно, тоже начали стучать регуляторам. Но это не замечали, потому что лишь Anthropic решили протестировать модель на такое.

Из этого всего сделали даже шуточный бенчмарк — Snitch Bench, который проверяет насколько часто модель будет пытаться уведомлять регуляторов, если увидит (якобы) серьёзное правонарушение. Больше всех закрывает глаза на преступления o4-mini, а вот мимо последних Claude и Gemini 2.0 Flash уже не пройдёшь.

Бенч

@ai_newz
Нейродайджест за неделю (#71)

LLM
- DeepSeek R1 обновили — теперь обходит Qwen 3 235B, но всё ещё за Gemini 2.5 Pro и o3. Больше размышляет и меньше галлюцинирует. Есть дистиллированная 8B версия.
- Grok интегрируют в Telegram — по заявлению Павла Дурова, летом появится глубокая интеграция Telegram получит $300m и долю в xAI. Сделка ещё не подписана, но вроде её собираются скоро подписать.
- GPT-3 стукнуло 5 лет — большой разбор того, как далеко шагнули LLM за эти годы: от 175B параметров и 2k контекста до мультимодальности, агентов, RLHF, и опенсорса, доступного каждому.

Железо
- NVIDIA готовит китайские GPU — B40/6000D на Blackwell, но с порезанными спеками, чтобы обойти санкции США.

Ликбез
- Стэнфордский курс по LLM — CS336 "Language Modeling from Scratch": от сбора данных до развертывания. Все материалы, код и лекции в открытом доступе. Практика с Transformer, FlashAttention 2 и RL.

Интересное
- Snitch Bench: кто из LLM стучит чаще? — после истории с Claude 4, который уведомлял власти, создали шуточный бенчмарк. Проверяет, как часто модели сообщают о (мнимых) правонарушениях. o4-mini самый лояльный, а последние Claude и Gemini 2.0 Flash — самые бдительные.

> Читать дайджест #70

#дайджест
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI дают доступ к Codex подписчикам Plus

Доступ уже раскатывают, лимиты "щедрые", но во время высокой нагрузки их будут резать для Plus юзеров. Ещё докинули кучу quality of life фич — агенту теперь можно давать указания голосом и включить доступ к интернету. Плюс Codex теперь не будет спамить пулреквестами, а сможет обновлять существующие.

chatgpt.com/codex

@ai_newz
Claude Code теперь доступен подписчикам Pro (план за $20)

Лимиты должны позволить Claude 4 Sonnet работать в небольших кодбазах час-два, лимиты сбрасываются каждые 5 часов. Opus остаётся прерогативой Max плана ($100/$200), как и повышенные рейтлимиты. Конкуренция работает — вчера OpenAI дали доступ к Codex для Plus подписчиков, а сегодня Anthropic отвечает.

Для того чтобы начать использовать нужно установить CLI тулу и залогиниться туда со своим аккаунтом Anthropic. А результаты своего вайбкодинга с Claude Code можете скидывать в комменты.

npm install -g @anthropic-ai/claude-code


@ai_newz
2025/06/25 16:26:14
Back to Top
HTML Embed Code: