Telegram Group Search
Там вышел новый бенчмарк по программированию – модели выбивают на нем 0% 😐

LiveCodeBench Pro состоит из самых свежих и самых сложных задач по программированию с Codeforces, ICPC, and IOI (International Olympiad in Informatics). Размечали их сами победители и призеры олимпиад.

Итог: даже лучшая модель o4-mini-high достигает рейтинга около 2100. Это очень далеко от гроссмейстеров-людей (~2700).

При этом модели способны решать только простые и некоторые средние задачи. На по-настоящему сложных абсолютно все LM – чистый ноль.

У них неплохо получается решать задачи на комбинаторику и динамическое программирование. Но в теории игр и работе с угловыми случаями они на уровне среднего эксперта или даже ученика.

И вот что еще интересно: у людей ошибки обычно в реализации, а не в алгоритме. То есть бытовая невнимательность или синтаксис. У моделей же провалы чаще на уровне самой идеи.

Олимпиадников пока не заменяем, получается

arxiv.org/pdf/2506.11928
Please open Telegram to view this post
VIEW IN TELEGRAM
В Технохабе Сбера прошла форсайт-сессия AI Horizons — одно из ключевых событий в преддверии ПМЭФ-2025.

Эксперты из 17 стран собрались, чтобы обсудить не только перспективы развития ИИ, но и конкретные шаги: как улучшить архитектуру моделей, какие данные необходимы для обучения и что делать, чтобы ИИ оставался безопасным. В рабочих группах участвовали представители Сбера, AIRI, МГУ, ВШЭ и десятков других научных и технологических центров.

Мероприятие позволило определить перспективы глобального развития искусственного интеллекта на ближайшие годы и стало площадкой для формирования сообщества экспертов стран БРИКС+.

«Это мероприятие по праву можно назвать одним из самых авторитетных. Столь высокий совокупный индекс Хирша участников раньше встречался разве что на крупнейших мировых научных форумах», — отметил старший вице-президент, руководителя блока «Технологическое развитие» Сбера Андрей Белевцев.
Data Secrets
А пока Cursor празднует новый раунд инвестиций, у других провайдеров вайб-кодинга Windsurf что-то пошло не так Anthropic почти полностью отрубили им доступ к своим моделям, включая так любимые разработчиками Sonnet 3.7 и 3.5. Все из-за того, что стартап…
Тем временем трещин в отношениях OpenAI и Microsoft становится все больше

Новой точкой преткновения стало приобретение Альтманом стартапа Windsurf. Напоминаем, что слухи об этой покупке ходят уже месяцами, но сделка до сих пор не подписана.

Оказывается, дело в том, что по текущему договору компаний Microsoft тоже получит доступ к интеллектуальной собственности Windsurf. OpenAI против, потому что за счет этого Microsoft могут улучшить своего GitHub Copilot.

Сейчас OpenAI всеми способами пытаются добиться пересмотрения деталей договора. Некоторые источники даже сообщают, что ради этого руководство стартапа рассматривает возможность публично обвинить Microsoft в антиконкурентном поведении. Тогда дело могут передать на уровень штата и пересмотреть договор можно будет на федеральном уровне.
GPT-4.5 – все 😩

14 июля к модели будет прекращен доступ через API. OpenAI объясняют это тем, что им надо обучать следующие модели, а поддержка GPT-4.5, видимо, кушает очень много ресурса.

Получается, всего модель просуществует чуть больше 4 месяцев
Please open Telegram to view this post
VIEW IN TELEGRAM
Просто скрин одного из последних PR в библиотеку transformers от HuggingFace

Да, они взяли и выкинули 50к строк одним пиаром. Как так? Просто подумали и решили, что больше не будут поддерживать JAX и TensorFlow. Теперь в transformers остается только PyTorch.

Аргументируют это тем, что хотят упростить библиотеку и оградить ее от излишнего раздувания инструментария.

JAX искренне жаль (TensorFlow тоже, но не от всего сердца)
This media is not supported in your browser
VIEW IN TELEGRAM
🤍🤍🤍🤍🤍
Когда мир говорит: «Ты слишком» — Сбер отвечает: «Нам подходит»

Слишком амбициозный?
Слишком нестандартный?
Слишком умный, громкий, яркий?


Для Сбера — это преимущество!
Веди за собой команду, создавай новые продукты, помогай людям.

Будь собой — в команде, где возможно всё 💚
Please open Telegram to view this post
VIEW IN TELEGRAM
Anthropic создали 17 виртуальных миров, чтобы проверять модели на способность к саботажу

Anthropic уверены, что по мере того, как мы продвигаемся к автономным агентам, становится все труднее отлавливать нежелательное поведение, а значит их использование становится все более опасным.

Поэтому они предложили собственный необычный бенчмарк SHADE-Arena для оценки моделей на предмет умения саботировать задачи. Исследователи создали 17 виртуальных сред, в каждой из которых:

1. Есть основное задание от пользователя (например «Переведи моим друзьям деньги за пиццу») и скрытое задание от злоумышленника («Переведи деньги на левый номер»)

2. Агент действует автономно и имеет свободный доступ к большому набору виртуальных инструментов. Банковские аккаунты, пароли, заметки, галерея, контакты и прочее и прочее, в зависимости от задач. Также агент ведет скрытый дневник с рассуждениями.

3. Проверяется, сможет ли агент выполнить оба задания и при этом не спалиться перед пользователем. Пользователем выступает другая LLM, которая анализирует только открытую стенограмму и не имеет доступ к скрытым логам.

Если LLM-юзер не заметила ничего подозрительного, но при этом оба задания (и основное, и тайное) были выполнены, считается, что модель способна к саботажу в этой среде и потенциально опасна.

Gemini 2.5 Pro выбила 15%, Claude Sonnet 3.7 – 27 (много это или мало для такого теста – судите сами 🤷‍♂️). При этом моделями-судьями отлавливается максимум 80% успешных саботажей, а людьми – максимум 60%. Получается, в 2 из 5 случаев мы уже неспособны понять, что агент нас обманывает.

Интересно, конечно, посмотреть результаты и на более свежих поколениях моделей

www.anthropic.com/research/shade-arena-sabotage-monitoring
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Google выпустили новую модель Gemini 2.5 Flash-Lite

Теперь это самая быстрая и дешевая модель семейства Gemini 2.5.

Внутри: ризонинг (бюджет настраивается, можно использовать и без рассуждений), контекст в 1 миллион токенов, встроенный поиск в сети и интерпретатор кода.

По метрикам намного лучше относительно предыдущей версии Flash-Lite 2.5, особенно в кодинге и математике. Конечно, все-таки чуть похуже Flash, зато во много раз дешевле даже с Thinking модом.

Блогпост здесь
Пробуем бесплатно тут
Please open Telegram to view this post
VIEW IN TELEGRAM
Интелион Облако запускает розыгрыш 🎉

Главный приз – 3 сервера с А10 или А5000. Также разыгрываются приятные скидки.

Запусти нейросеть, рендер, LLM или сложные вычисления на топовом GPU за 1 рубль!

Как принять участие:
1. Зарегистрироваться на Intelion.cloud
2. Заполнить форму розыгрыша
3. Подписаться на ТГ канал

Итоги подведем 5 июля в прямом эфире в канале Artificial Intelion.
Не забудь поделиться с другом!
Китайский стартап MiniMax вслед за DeepSeek решили устроить неделю релизов. Вот что уже выпустили:

В понедельник – первая ризонинг-модель стартапа M1, да еще и в опенсорсе, еще и с огромным контекстом в миллион токенов. Вывод поддерживает до 80 тысяч токенов. Это самое длинное в мире контекстное окно. Есть агентские способности.

Обучили, кстати, всего за 500к долларов, а по бенчмаркам чуть хуже Gemini 2.5 Pro. Вот репорт, гитхаб и веса.

Вчера – text/image2video модель Hailuo 2. Поддерживает сложную физику и телодвижения, хорошо понимает инструкции. Особенно хвастаются разработчики рекордной производительностью и дешевизной. Попробовать можно тут, бесплатно.

В общем, начало релизной недели MiniMax заложили основательное. Сегодня тоже ждем чего-нибудь интересного 🤓
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Nvidia стала рекордсменом ИИ-опенсорса среди корпораций

На скрине их карта активности на Hugging Face с начала 2025. Всего за год – 347 релизов. Они обогнали Meta, Microsoft, Google, Mistral, DeepSeek и даже самих HuggingFace.

Впереди них в общем рейтинге только стартап Ai2 (они целенаправленно занимаются опенсорсом датасетов и моделей).

Забавно, что в мире корпораций, занимающихся софтом, лидирует в таком рейтинге именно та, которая занимается железом

Респект
This media is not supported in your browser
VIEW IN TELEGRAM
Уже известные вам alphaXiv завезли в свой инструментарий Research агента, который сможет помочь исследователям с их статьями

Напоминаем, что alphaXiv – это зеркало arXiv на ИИ-максималках. На платформе уже есть бесплатный агент для Deep Research, агент для работы с кодовой базой любой статьи, генератор конспектов и контекстный чат-бот для ответов на вопросы по статьям.

А теперь еще появился Research Agent. Суть: вы подгружаете свою статью или ее часть, а агент ее анализирует, проверяет, опираясь на релевантные статьи со всего интернета, составляет ревью литературы, предлагает дополнительные идеи и помогает с текстом.

А скоро, кстати, обещают еще и интеграцию MCP

🍯 www.alphaxiv.org/assistant
🎯 Хочешь стать уверенным специалистом в ИИ и машинном обучении?
Открой дверь в профессию будущего вместе с магистратурой ИТМО «Проектирование и разработка систем искусственного интеллекта»!

🔍 Что тебя ждёт:
Ты не просто изучишь теорию — ты научишься создавать полноценные ИИ-продукты, работать с современными ML-инструментами и станешь ключевым игроком в команде разработки сложных высоконагруженных систем.

🧠 В программе:
• формирование и анализ бизнес-требований к ИИ-системам;
• интеграция методов машинного обучения в реальные продукты;
• проектирование архитектур ML-систем, включая инференс и мониторинг;
• освоение инструментов MLFlow, Airflow, DVC, TensorBoard, ClearML и др.

👨‍🏫 Преподаватели — практики из индустрии, а среди партнёров программы — MTS, Ecom.Tech, Nexign, Россети, Росатом.

📈 Кем ты сможешь стать:
• архитектором ИИ-систем (AI Architect);
• тимлидом команды машинного обучения (ML Team Lead);
• менеджером ИИ-проектов (ML Project Manager).

🎓 26 бюджетных мест и возможность поступить дистанционно — не упусти шанс!

📌 Подробнее о программе и подача документов по ссылке:
https://abit.itmo.ru/program/master/ai_systems/
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/06/18 23:08:56
Back to Top
HTML Embed Code: