HKU NLP выкатили POLARIS - рецепт для выжимания максимума из маленьких моделей через RL.
Их 4B модель показывает 81.2% на AIME24 и 79.4% на AIME25, что сопоставимо с моделями во много раз больше. Фокус в правильной калибровке сложности данных - нужно перевернутое J-образное распределение, где большинство задач сложные, но решаемые. Они динамически отфильтровывают слишком простые задачи во время тренировки, поддерживая оптимальный уровень сложности. Так модель вынуждена постоянно учиться и расти над собой, в то же время не надрываясь на слишком сложных задачах.
Важно поддерживать и разнообразие генераций — модели имеют три температурные зоны: стабильная генерация (низкое разнообразие), осторожное экспериментирование (оптимальный баланс) и полный коллапс. POLARIS тренируют так, чтобы модель всегда экспериментировала и не выдавала слишком похожих решений, а по мере роста уверенности модели в ходе тренировки постепенно повышают температуру - с 1.4 до 1.5 для Qwen3-4B. Это поддерживает разнообразие решений, необходимое для relative policy optimization.
Для решение проблемы разреженных наград используют Rollout Rescue: когда все 8 попыток решения проваливаются, система подставляет сохраненное успешное решение из предыдущих эпох. Для каждой задачи поддерживается буфер с последним правильным ответом, который обновляется при появлении новых успешных решений. Это гарантирует, что модель всегда имеет положительные примеры для обучения даже на самых сложных задачах.
Экстраполяция длины через Yarn позволяет моделям генерить 90K+ токенов качественных рассуждений, хотя тренировались они на меньших длинах. Без Yarn точность на длинных цепочках рассуждений падает с 50% до 26%.
Многоэтапная тренировка с постепенным увеличением контекста и удалением ограничений энтропии/KL loss для агрессивного исследования пространства решений завершают картину.
Результат – 4B модель, которую можно запустить на телефоне, которая решает олимпиадные задачи почти на уровне 235B Qwen 3. А вишенка на торте — опубликовали не только веса модели, но и датасет на котором тренировали POLARIS.
Веса 4B модели
Датасет
Блогпост о тренировке
@ai_newz
Их 4B модель показывает 81.2% на AIME24 и 79.4% на AIME25, что сопоставимо с моделями во много раз больше. Фокус в правильной калибровке сложности данных - нужно перевернутое J-образное распределение, где большинство задач сложные, но решаемые. Они динамически отфильтровывают слишком простые задачи во время тренировки, поддерживая оптимальный уровень сложности. Так модель вынуждена постоянно учиться и расти над собой, в то же время не надрываясь на слишком сложных задачах.
Важно поддерживать и разнообразие генераций — модели имеют три температурные зоны: стабильная генерация (низкое разнообразие), осторожное экспериментирование (оптимальный баланс) и полный коллапс. POLARIS тренируют так, чтобы модель всегда экспериментировала и не выдавала слишком похожих решений, а по мере роста уверенности модели в ходе тренировки постепенно повышают температуру - с 1.4 до 1.5 для Qwen3-4B. Это поддерживает разнообразие решений, необходимое для relative policy optimization.
Для решение проблемы разреженных наград используют Rollout Rescue: когда все 8 попыток решения проваливаются, система подставляет сохраненное успешное решение из предыдущих эпох. Для каждой задачи поддерживается буфер с последним правильным ответом, который обновляется при появлении новых успешных решений. Это гарантирует, что модель всегда имеет положительные примеры для обучения даже на самых сложных задачах.
Экстраполяция длины через Yarn позволяет моделям генерить 90K+ токенов качественных рассуждений, хотя тренировались они на меньших длинах. Без Yarn точность на длинных цепочках рассуждений падает с 50% до 26%.
Многоэтапная тренировка с постепенным увеличением контекста и удалением ограничений энтропии/KL loss для агрессивного исследования пространства решений завершают картину.
Результат – 4B модель, которую можно запустить на телефоне, которая решает олимпиадные задачи почти на уровне 235B Qwen 3. А вишенка на торте — опубликовали не только веса модели, но и датасет на котором тренировали POLARIS.
Веса 4B модели
Датасет
Блогпост о тренировке
@ai_newz
Media is too big
VIEW IN TELEGRAM
Hunyuan GameCraft — нейронный игровой движок от Tencent
Выглядит на голову выше Genie 2 и других конкурентов, при этом сильно более интерективная. В качестве основы используется Hunyuan Video, который натюнили на геймплее из более чем сотни ААА проектов — Assassin’s Creed, Red Dead Redemption и Cyberpunk 2077. Результат соответствующий — некоторые игры из датасета можно легко узнать по результатам генерации модели.
Основная проблема добавления интерактивности в видеомодель — это компромисс между стабильностью картинки и отзывчивостью на действия игрока. Если модель слишком сильно держится за прошлое, она становится инертной и плохо реагирует на резкие повороты. Если же она ориентируется только на последний кадр, то быстро забывает сцену, что приводит к куче артефактов. Если вы пробовали поиграть в нейронный майнкрафт, то вы понимаете о чём я говорю.
Авторы пейпера решают эту проблему с помощью гибридной стратегии обучения, где модель учится генерировать видео в трёх разных режимах: начиная с одного кадра (25%), продолжая короткий фрагмент (70%) или длинный (5%). Смешивая эти три режима во время обучения, модель становится универсальной. Она учится как начинать видео с нуля, так и продолжать его, балансируя между консистентностью и реакцией на новые команды.
Но интерактивность бесполезна если модель настолько медленная, что отклика нужно ждать несколько секунд или даже минуты. Поэтому авторы дистиллируют модель в PCM — Phased Consistency Model. Это позволяет добиться 6.6FPS на 1xH100, это всё ещё неприятно, но уже может считаться интерактивным. Правда это можно заметно ускорить — перевести инференс на Blackwell, квантизировать модельки, дистиллировать в модельку поменьше, ну и другие методы из моего поста про ускорение диффузии.
А длинный путь мы прошли с GAN Theft Auto
Сайт проекта
Пейпер
@ai_newz
Выглядит на голову выше Genie 2 и других конкурентов, при этом сильно более интерективная. В качестве основы используется Hunyuan Video, который натюнили на геймплее из более чем сотни ААА проектов — Assassin’s Creed, Red Dead Redemption и Cyberpunk 2077. Результат соответствующий — некоторые игры из датасета можно легко узнать по результатам генерации модели.
Основная проблема добавления интерактивности в видеомодель — это компромисс между стабильностью картинки и отзывчивостью на действия игрока. Если модель слишком сильно держится за прошлое, она становится инертной и плохо реагирует на резкие повороты. Если же она ориентируется только на последний кадр, то быстро забывает сцену, что приводит к куче артефактов. Если вы пробовали поиграть в нейронный майнкрафт, то вы понимаете о чём я говорю.
Авторы пейпера решают эту проблему с помощью гибридной стратегии обучения, где модель учится генерировать видео в трёх разных режимах: начиная с одного кадра (25%), продолжая короткий фрагмент (70%) или длинный (5%). Смешивая эти три режима во время обучения, модель становится универсальной. Она учится как начинать видео с нуля, так и продолжать его, балансируя между консистентностью и реакцией на новые команды.
Но интерактивность бесполезна если модель настолько медленная, что отклика нужно ждать несколько секунд или даже минуты. Поэтому авторы дистиллируют модель в PCM — Phased Consistency Model. Это позволяет добиться 6.6FPS на 1xH100, это всё ещё неприятно, но уже может считаться интерактивным. Правда это можно заметно ускорить — перевести инференс на Blackwell, квантизировать модельки, дистиллировать в модельку поменьше, ну и другие методы из моего поста про ускорение диффузии.
А длинный путь мы прошли с GAN Theft Auto
Сайт проекта
Пейпер
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini CLI — официальный агент для Gemini от Google
Использовать можно бесплатно просто залогинившись с аккаунтом Google — дают до 60 запросов в минуту к Gemini 2.5 Pro и до тысячи в день. Такой щедрости не проявляет ни Codex ни Claude Code. Есть поддержка MCP, которая позволяет подключать туда сторонние тулы. Гугл даже запилил MCP серверы для взаимодействия с Veo/Imagen/Lyria.
Доступен код по лицензии Apache 2.0, так что с ним можно делать всё что угодно. А вот в апстрим залить что-либо будет сильно сложнее — у гугла очень специфическая политика по поводу сторонних контрибьюторов.
Блогпост
Исходники
@ai_newz
Использовать можно бесплатно просто залогинившись с аккаунтом Google — дают до 60 запросов в минуту к Gemini 2.5 Pro и до тысячи в день. Такой щедрости не проявляет ни Codex ни Claude Code. Есть поддержка MCP, которая позволяет подключать туда сторонние тулы. Гугл даже запилил MCP серверы для взаимодействия с Veo/Imagen/Lyria.
Доступен код по лицензии Apache 2.0, так что с ним можно делать всё что угодно. А вот в апстрим залить что-либо будет сильно сложнее — у гугла очень специфическая политика по поводу сторонних контрибьюторов.
npm install -g @google/gemini-cli
Блогпост
Исходники
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Теперь Claude Artifacts могут вызывать API Claude
Это делает их заметно полезнее — теперь можно создавать полноценные интерактивные инструменты прямо в чате, а в дальнейшем сюда явно напрашивается интеграция MCP. Сделали и отдельную страницу со всем артефактами созданными юзером, плюс парой десятков примеров, которые можно ремиксить. Апдейт уже доступен всем не-энтерпрайз юзерам, даже бесплатным. Лимиты у использования Claude в чате и в артефактах одни и те же.
claude.ai/artifacts
@ai_newz
Это делает их заметно полезнее — теперь можно создавать полноценные интерактивные инструменты прямо в чате, а в дальнейшем сюда явно напрашивается интеграция MCP. Сделали и отдельную страницу со всем артефактами созданными юзером, плюс парой десятков примеров, которые можно ремиксить. Апдейт уже доступен всем не-энтерпрайз юзерам, даже бесплатным. Лимиты у использования Claude в чате и в артефактах одни и те же.
claude.ai/artifacts
@ai_newz
Black Forest Labs выложили веса FLUX.1 Kontext [dev]
Она, конечно, заметно слабее чем pro и max, но всё ещё часто обходит нативную генерацию изображений в gpt-image на собственных бенчах BFL и с огромным отрывом лучшая модель с доступными весами. Для владельцев видях Blackwell выкатили ещё и официальные TensorRT версии — в fp8 и fp4. Они качеством, конечно, похуже, но вплоть до двух раз быстрее плюс требуют меньше видеопамяти.
Для некоммерческого использования модель бесплатная. За коммерческое использование придётся платить — $999 долларов в месяц за 100к сгенеренных изображений, всё что больше 100к генераций в месяц — 1 цент за генерацию.
Веса
Оптимизированные TensorRT версии
Техрепорт
Код
@ai_newz
Она, конечно, заметно слабее чем pro и max, но всё ещё часто обходит нативную генерацию изображений в gpt-image на собственных бенчах BFL и с огромным отрывом лучшая модель с доступными весами. Для владельцев видях Blackwell выкатили ещё и официальные TensorRT версии — в fp8 и fp4. Они качеством, конечно, похуже, но вплоть до двух раз быстрее плюс требуют меньше видеопамяти.
Для некоммерческого использования модель бесплатная. За коммерческое использование придётся платить — $999 долларов в месяц за 100к сгенеренных изображений, всё что больше 100к генераций в месяц — 1 цент за генерацию.
Веса
Оптимизированные TensorRT версии
Техрепорт
Код
@ai_newz
Cloud.ru анонсировал AI-помощника для автоматизации работы с облаком
На конференции GigaConf провайдер облачных и AI-технологий Cloud.ru сделал два анонса: запуск AI-помощника Клаудии и открытие общего доступа к платформе Cloud.ru Evolution AI Factory. Инструменты упрощают работу с облачными технологиями и AI для пользователей со всеми уровнями технического бэкграунда.
AI-помощник в режиме Public Preview консультирует пользователей и выполняет конкретные действия по управлению ресурсами. Он самостоятельно разворачивает виртуальные машины, подбирает оптимальную конфигурацию сервисов, настраивает мониторинг и алертинг, а также работает с консолью в режиме co-pilot. Зная архитектуру платформы, помощник дает персональные рекомендации и автоматизирует рутинные DevOps-задачи. Эти инструменты помогут разработчикам стартапов и pet-проектов без особого опыта в облачных технологиях быстрее запускать проекты, а опытным DevOps и SRE-инженерам — сосредоточиться на стратегических задачах.
Также провайдер открыл доступ к Cloud.ru Evolution AI Factory — облачной среде с готовыми инструментами для работы с LLM и создания мультиагентных систем. В нее входят шесть сервисов: Foundation Models для работы с моделями через API, ML Inference для развертывания моделей, Managed RAG для технологии дополненной генерации, ML Finetuning для адаптации LLM-моделей, Notebooks для работы с Jupyter Notebooks и AI Agents — визуальный редактор агентов на базе LLM. Инструменты подходят для разных задач: от автоматизации поддержки клиентов до оптимизации документооборота и управления поставками.
#промо
На конференции GigaConf провайдер облачных и AI-технологий Cloud.ru сделал два анонса: запуск AI-помощника Клаудии и открытие общего доступа к платформе Cloud.ru Evolution AI Factory. Инструменты упрощают работу с облачными технологиями и AI для пользователей со всеми уровнями технического бэкграунда.
AI-помощник в режиме Public Preview консультирует пользователей и выполняет конкретные действия по управлению ресурсами. Он самостоятельно разворачивает виртуальные машины, подбирает оптимальную конфигурацию сервисов, настраивает мониторинг и алертинг, а также работает с консолью в режиме co-pilot. Зная архитектуру платформы, помощник дает персональные рекомендации и автоматизирует рутинные DevOps-задачи. Эти инструменты помогут разработчикам стартапов и pet-проектов без особого опыта в облачных технологиях быстрее запускать проекты, а опытным DevOps и SRE-инженерам — сосредоточиться на стратегических задачах.
Также провайдер открыл доступ к Cloud.ru Evolution AI Factory — облачной среде с готовыми инструментами для работы с LLM и создания мультиагентных систем. В нее входят шесть сервисов: Foundation Models для работы с моделями через API, ML Inference для развертывания моделей, Managed RAG для технологии дополненной генерации, ML Finetuning для адаптации LLM-моделей, Notebooks для работы с Jupyter Notebooks и AI Agents — визуальный редактор агентов на базе LLM. Инструменты подходят для разных задач: от автоматизации поддержки клиентов до оптимизации документооборота и управления поставками.
#промо