Telegram Group Search
Media is too big
VIEW IN TELEGRAM
Veo 3– это разъ*б. Кажется, мы действительно не так далее от кастомных развязок в фильма и сериалах. Индустрия развлечений никогда не будет прежней.

Чел склепал такой ролик всего за 2 часа работы с Veo 3. Тут сгенерировано все – и картинка и звук.

@ai_newz
Devstral 24B — лучшая открытая агентная модель для кодинга

Mistral AI и All Hands AI представили Devstral — специализированную LLM для реальных задач в кодинге, с 46.8% на SWE-Bench Verified, что делает её на 6% выше лучших открытых моделей. Это всё несмотря на малый размер — модель влезает в 3090 или Mac с 32 гигами оперативки.

Модель работает через агентные фреймворки (одна из компаний всё же авторы OpenHands) для взаимодействия с кодбазами. Вероятно её хорошо научили пользоваться скафолдингом, из-за чего такие хорошие результаты, даже без ризонинга.

Модель доступна по лицензии Apache 2.0, то есть её спокойно можно использовать в коммерческих целях. Через пару недель обещают модели побольше, но вряд ли настолько же открытые.

Веса
Блогпост

@ai_newz
Anthropic только что релизнули Claude 4 Sonnet и Opus

Модели концентрируются на кодинге и агентах — там они SOTA, в остальных бенчах всё более спорно. Новый клод может заниматься задачей в течении многих часов не сбиваясь, по заявлениям сотрудников Anthropic. Этого хватает для куда более сложных задач, чем те на которые способны другие модели. Цены остаются от старых Sonnet и Opus.

Вместе с моделью анонсировали кучу фич для разработчиков:
В API сегодня запустят code execution tool.
Прямая интеграция Claude в IDE JetBrains и VS Code.
К Claude в API теперь можно напрямую подключаться через MCP.
В API добавили Files API и веб поиск.
Prompt Caching теперь можно расширить до часа.

Блогпост

@ai_newz
Parallel Scaling Law

Обычно LLM масштабируют либо через параметры (Dense, MoE), либо через время инференса (CoT). PARSCALE предлагает третий, "параллельный" путь. Это нечто среднее: умеренное время инференса и умеренное потребление памяти. Суть метода в том, чтобы масштабировать параллельные вычисления, выполняемые моделью, при этом сохраняя количество ее основных параметров практически неизменным.

Работает PARSCALE через механизм обучаемых префиксов. Берём один входной запрос и создаём из него P разных версий, добавляя к каждой свой уникальный префикс. Эти префиксы - не просто текст, а специальные обучаемые векторы (примерно 48 токенов), которые встраиваются в каждый слой внимания модели. Они работают как "линзы", заставляя модель смотреть на один и тот же запрос под разными углами.

Все P версий запроса обрабатываются параллельно через одну и ту же модель, но из-за разных префиксов получаются разные ответы. Эти ответы затем взвешенно смешиваются с помощью небольшой нейросети, которая учится определять, насколько хорошо ответ с каждого потока подходит для каждого токена. P параллельных потоков с разными префиксами дают такой же прирост качества, как увеличение размера модели в log(P) раз. То есть 8 потоков ≈ модель в 3 раза больше, но без реального роста числа параметров.

Главное преимущество PARSCALE — его эффективность в локальном инференсе. При локальном инференсе основной ботлнек — в загрузке данных из памяти на чип, так что батчинг запросов практически не влияет на задержку. Для модели размером 1.6 млрд параметров, использование PARSCALE с P=8 требует до 22 раз меньше дополнительной оперативной памяти и обеспечивает до 6 раз меньший дополнительный прирост задержки по сравнению с масштабированием параметров до аналогичного уровня качества (при batch size = 1). Особенно хорошо PARSCALE проявляется на генерации кода и математике. Кроме того, это применимо к любой архитектуре, данным и задачам.

Для снижения затрат на обучение авторы предлагают использовать PARSCALE лишь на посттрейн стадии. Это работает и с уже существующими моделями путем их дообучения с PARSCALE, причем даже с замороженными весами основной модели, обучая только компоненты PARSCALE (PEFT-подход). Тема интересная, у облачного и локального инференса разные ботлнеки, так что архитектуры тоже должны отличаться. Всё для того чтобы локальные модели были быстрее и дешевле.

Пейпер
Код с моделями

@ai_newz
Нейродайджест за неделю (#70)
Юбилейный и неделя Google

Google I/O
- Дайджест по презентации — собрал все фишки с пояснениями, что как работает.
- Gemini Diffusion — экспериментальная диффузионная модель для текста, в 5 раз быстрее Gemini 2.0 Flash Lite (самой быстрой модели Google), при сохранении качества (но это не точно), особенно в коде и математике. 1479 токенов в секунду — это не шутка.
- Veo 3 — Veo 2 ещё не успели сместить с пьедестала, а Google уже дропнули 3-ю версию SOTA видеогенератора. Лучше во всём, и теперь с нативной генерацией аудио, включая диалоги с липсинком (пример).

LLM
- Devstral 24B — король опенсорс кодинга; если поднимать на своей машине — то его. Влезает в 3090.
- Claude 4 Sonnet и Opus — SOTA для кода и агентов, остальное тоже неплохо + фишки для API.

Ликбез

- Parallel Scaling Law — большой разбор параллельного масштабирования с фокусом через баланс между временем инференса и потребления памяти. Полезно для локального инференса.

> Читать дайджест #69

#дайджест
@ai_newz
NVIDIA готовит новые GPU для Китая

Судя по утечкам, речь идёт о GPU с рабочим названием B40/6000D: та же архитектура Blackwell, но урезанное число SM и с меньшей пропускной способностью памяти в ≈1,7 ТБ/с — это как раз нижний порог, разрешённый Минторгом США для поставок в Китай. Это чуть ниже чем у 5090, и заметно меньше не только серверных B100/B200 (у тех по 8ТБ/с), но и H20, у которой 4ТБ/с. Серийное производство стартует уже в следующем месяце.

Главные компромиссы: вместо HBM3e ставят обычную GDDR7 с 448-битной шиной, без дорогой и дефицитной CoWoS упаковки чипа на TSMC— чип можно паять на более простых платах. По цене новые карты выйдут по 6,5–8k$ против 10–12k$ у заблокированного H20, что позволит получить производительностью чуть ниже Hopper, но заметно выше оставшихся разрешённых чипов.

Стратегия понятна: сохранить долю рынка, которая уже просела до ~50% из-за Huawei Ascend 910B и местных ASIC, и одновременно не нарушить экспортные правила. Второй, ещё более урезанный Blackwell (кодовое имя B25) запланирован к мас-продакшену к сентябрю, если первая партия пройдёт валидацию. При этом Nvidia признаёт, что совокупный убыток от санкций может дойти до 15B$ (из-за блокировки H20 уже пришлось списать инвентаря на 5 миллиардов), и новые специализированные линейки — их единственный быстрый способ остаться в китайских ИИ-центрах.

@ai_newz
Стенфордский курс по внутреннему устройству LLM

CS336, Language Modeling from Scratch, показывает, как сделать полноценную LLM с нуля: от сбора и очистки датасета до тренировки, профайлинга и развёртывания модели. Все конспекты, ноутбуки и код сразу публикуют в открытой репе, так что можно повторять эксперименты дома хоть на одной-двух карточках или в колабе.

Курс сделан с большим упором на практику — в качестве пяти домашних заданий предлагают имплементировать сначала чистый Transformer с нуля, затем кастомный FlashAttention 2 на Triton, распределённую тренировку, разобраться со scaling laws, фильтрацей датасета и применением RL в LLM. Требования — уверенный Python и PyTorch.

Лекции на ютубе
Материалы к лекциям
Сайт курса

@ai_newz
Media is too big
VIEW IN TELEGRAM
В Telegram интегрируют Grok

Ещё марте подписчикам Telegram Premium дали доступ к Grok через бота, похоже партнёрство решили расширить, а расширенный функционал появится уже летом. Интеграция будет крайне глубокой: Grok сможет суммаризировать чаты, ссылки и файлы, помогать в написании сообщений, модерировать чаты, фактчекать посты в каналах и создавать стикеры с аватарами.

Соглашение заключено на год, в его рамках телеграм получит $300m в деньгах и акциях xAI, плюс 50% выручки от подписок оформленных через Telegram. Что получает xAI взамен — непонятно, вероятно данные которые юзеры скормлят в грока.

@ai_newz
Сейчас в универах большой спрос на экспертов в машинном обучении, ведь ИИ развивается как сумасшедший. Кто-то полностью фокусируется на преподавании, кто-то умудряется совмещать с работой в компаниях.

Яндекс решил поддержать тех, кто занимается подготовкой нового поколения спецов, которым предстоит создавать AI-native мир. До 22 июня можно подать заявку на научно-образовательную премию Yandex ML Prize — там не только деньги, но и гранты на облачную инфру для исследований. Есть три номинации: опытные преподаватели, начинающие педагоги и руководители образовательных программ.

Если знаете лекторов, которые ведут курсы по ML, нейронкам, ИИ и смежным дисциплинам— скиньте им инфу про премию. Может, именно их студенты через пару лет будут двигать нас к AGI. А пока важно, чтобы у этих людей был стимул продолжать, несмотря на все сложности передавать знания в такой быстро меняющейся сфере.

@ai_newz
DeepSeek R1 обновили

По традиции 🐳 выложили веса без деталей, они появятся позже. Модель уже доступна в чате, API пока не обновили.

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

@ai_newz
А вот и бенчи DeepSeek R1 0528

Прокачали знатно — модель теперь уверенно обходит Qwen 3 235B, но отстаёт от Gemini 2.5 Pro и o3, хоть и не так сильно. Прирост во многом объясняется выросшим количеством размышлений — в среднем 23к токенов, против 12к токенов у прошлой версии. Кроме прокачки по бенчам, модель теперь меньше галлюцинирует и лучше делает фронтенд (но до клода очевидно не дотягивает).

Кроме релиза большой версии, цепочки рассуждений из новой DeepSeek R1 дистиллировали в Qwen 3 8B. После такого тюна модель стала заметно лучше на математических бенчах. Уже можно скачать с 🤗.

Большая модель
8B дистил

@ai_newz
Сегодня GPT-3 исполнилось пять лет

Хороший повод вспомнить насколько всё сильно изменилось за эти пять лет. Старушка GPT-3 это LLM на 175 миллиардов параметров, с датасетом всего лишь в 300 миллиардов токенов и длиной контекста в 2048 токенов. Со времени релиза размеры датасетов и длина контекста выросли многократно — Qwen 3 тренировали на 36 триллионах токенов, а у последних версий Gemini и GPT 4.1 по миллиону токенов контекста.

Сейчас у нас есть модели со в сто раз меньшим количеством параметров и с уровнем интеллекта на уровне GPT-3, благодаря росту размеров и качества датасетов. Но эти новые модели умеют гораздо больше. У новых моделей всё чаще есть мультимодальность причём часто не только на вход, но и на выход — модели могут не только понимать, но и нативно генерировать изображения и звук.

Но самое главное — кардинально изменился подход к обучению. Если GPT-3 была чисто авторегрессионной моделью, предсказывающей следующий токен, то современные модели проходят через сложный процесс посттрейна. Их учат следовать инструкциям, отвечать на вопросы и выполнять задачи, а не просто продолжать текст. RLHF и подобные методы сделали модели полезными ассистентами, а не генераторами правдоподобного текста. Но на этом всё не остановилось — за последний год многие модели научили ризонингу, за чем последовал огромный прогресс в верифицируемых доменах вроде кода и математики.

Изменилось и то, как мы используем эти модели. GPT-3 умела только генерировать текст, а современные LLM стали полноценными агентами. Они могут хорошо искать в интернете, вызывают функции и API, пишут и исполняют код прямо в процессе ответа. Function calling и протоколы вроде MCP дали возможность моделям не просто рассказать как решить задачу, но и решить её — написать код, запустить его, проанализировать результаты и исправить ошибки.

Параллельно произошла революция в железе. В 2020 году кластер OpenAI из 10 тысяч V100 считался очень большим. Сегодня xAI планирует кластер на миллион GPU, для OpenAI строят Stargate, а другие компании рутинно оперируют сотнями тысяч ускорителей. Но дело не только в масштабе — изменился сам подход к вычислениям. Модели теперь тренируют в fp8, тогда как даже в 2020 году очень часто использовали fp32, но и это не предел — первые эксперименты с fp4 показывают многообещающие результаты (тык, тык). Агрессивная квантизация позволила запускать модели в 4 битах практически без потери качества, сжав их в разы.

И что особенно важно — всё это стало доступным. Если GPT-3 был закрытым API за деньги, то сегодня модели уровня GPT-3.5 можно запустить на своём телефоне. Open-source сообщество догоняет корпорации, а инструменты для файнтюнинга позволяют адаптировать модели под любые задачи. AI перестал быть игрушкой для избранных и реально стал массовым.

Вот э тайм ту би элайв!

@ai_newz
Помните как Claude 4 уведомлял власти если видел серьёзное правонарушение?

После выхода system card многие возмутились — ведь LLM всё ещё часто галлюцинируют и могут что-то не так понять, а потом разбирайся с органами. Но когда такой же промпт попробовали дать другим моделям, они, внезапно, тоже начали стучать регуляторам. Но это не замечали, потому что лишь Anthropic решили протестировать модель на такое.

Из этого всего сделали даже шуточный бенчмарк — Snitch Bench, который проверяет насколько часто модель будет пытаться уведомлять регуляторов, если увидит (якобы) серьёзное правонарушение. Больше всех закрывает глаза на преступления o4-mini, а вот мимо последних Claude и Gemini 2.0 Flash уже не пройдёшь.

Бенч

@ai_newz
Нейродайджест за неделю (#71)

LLM
- DeepSeek R1 обновили — теперь обходит Qwen 3 235B, но всё ещё за Gemini 2.5 Pro и o3. Больше размышляет и меньше галлюцинирует. Есть дистиллированная 8B версия.
- Grok интегрируют в Telegram — по заявлению Павла Дурова, летом появится глубокая интеграция Telegram получит $300m и долю в xAI. Сделка ещё не подписана, но вроде её собираются скоро подписать.
- GPT-3 стукнуло 5 лет — большой разбор того, как далеко шагнули LLM за эти годы: от 175B параметров и 2k контекста до мультимодальности, агентов, RLHF, и опенсорса, доступного каждому.

Железо
- NVIDIA готовит китайские GPU — B40/6000D на Blackwell, но с порезанными спеками, чтобы обойти санкции США.

Ликбез
- Стэнфордский курс по LLM — CS336 "Language Modeling from Scratch": от сбора данных до развертывания. Все материалы, код и лекции в открытом доступе. Практика с Transformer, FlashAttention 2 и RL.

Интересное
- Snitch Bench: кто из LLM стучит чаще? — после истории с Claude 4, который уведомлял власти, создали шуточный бенчмарк. Проверяет, как часто модели сообщают о (мнимых) правонарушениях. o4-mini самый лояльный, а последние Claude и Gemini 2.0 Flash — самые бдительные.

> Читать дайджест #70

#дайджест
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI дают доступ к Codex подписчикам Plus

Доступ уже раскатывают, лимиты "щедрые", но во время высокой нагрузки их будут резать для Plus юзеров. Ещё докинули кучу quality of life фич — агенту теперь можно давать указания голосом и включить доступ к интернету. Плюс Codex теперь не будет спамить пулреквестами, а сможет обновлять существующие.

chatgpt.com/codex

@ai_newz
Claude Code теперь доступен подписчикам Pro (план за $20)

Лимиты должны позволить Claude 4 Sonnet работать в небольших кодбазах час-два, лимиты сбрасываются каждые 5 часов. Opus остаётся прерогативой Max плана ($100/$200), как и повышенные рейтлимиты. Конкуренция работает — вчера OpenAI дали доступ к Codex для Plus подписчиков, а сегодня Anthropic отвечает.

Для того чтобы начать использовать нужно установить CLI тулу и залогиниться туда со своим аккаунтом Anthropic. А результаты своего вайбкодинга с Claude Code можете скидывать в комменты.

npm install -g @anthropic-ai/claude-code


@ai_newz
Gemini 2.5 Pro обновили

Сильный прирост по бенчам, Gemini 2.5 Pro теперь обходит текущую версию o3. Модель уже доступна в ai.studio, по первым ощущениям мне она нравится больше чем более ранние версии — по крайней мере она слушается когда просишь её не спамить код комментами. А ещё, как и 2.5 Flash, это гибридная модель, у которой можно устанавливать бюджет на ризонинг. Генерацию изображений для Gemini Pro так и не завезли.

@ai_newz
Создатели Cursor привлекли $900m по оценке в $9.9B

У них всё хорошо — вчера вышла версия 1.0 редактора, куда добавили память и возможность агенту пользоваться Jupyter Notebooks. Компания довольно агрессивно хантит, утащили даже лида разработки моделей из Midjourney. Но они могут себе это позволить — проецируемая выручка превысила $500m в год, правда непонятно сколько из этих денег идёт в карман провайдеров моделей.

А тем временем у главного конкурента Cursor, Windsurf, проблемы — Anthropic забирают доступ к своему API. Дело в поглощении Windsurf OpenAI — слухи о сделке ходят уже больше месяца, хоть и никакого подтверждения закрытия сделки не было. Видимо Anthropic уверенны что сделка состоится — "Было бы странно если бы мы продавали OpenAI доступ к Claude", прокомментировал Джаред Каплан, Chief Science Officer в Anthropic.

@ai_newz
Нейродайджест за неделю (#72)

Инструменты для (вайб)кодинга

- OpenAI открыли Codex для Plus подписчиков — "щедрые" лимиты с урезанием при высокой нагрузке. Добавили голосовые команды, доступ к интернету и возможность обновлять существующие PR вместо спама новыми.
- Claude Code для Pro подписчиков — ответ Anthropic на ход OpenAI. План за $20 даёт доступ к Claude 4 Sonnet для работы в небольших кодбазах 1-2 часа, лимиты сбрасываются каждые 5 часов. Opus остаётся только для Max плана ($100/$200).
- Создатели Cursor закрыли ещё раунд — вышла версия 1.0 с памятью и поддержкой Jupyter. Выручка превысила $500m/год. У конкурента Windsurf проблемы: Anthropic забирают API из-за возможного поглощения OpenAI.

LLM
- Gemini 2.5 Pro обновили — сильный прирост по бенчам, теперь обходит текущую версию o3. Гибридная модель с настраиваемым бюджетом на reasoning. Доступна в AI Studio.

Читать дайджест #71

#дайджест
@ai_newz
2025/06/25 21:45:03
Back to Top
HTML Embed Code: