Telegram Group Search
Призываю всех пойти погенерить и пооценивать мемы в @AIMemeArenaBot.
За себя голосовать не призываю, там всё равно метки скрытые, но в свою систему верю.
Голосуй, или я проиграю 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Мем, сгенерированный по предыдущему сообщению.
Forwarded from Vikhr models
⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO этапом. За счет GRPO это теперь первая reasoning модель на русском языке с честным RL .


🔗 Карточка модели:
https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r
Статьи-близнецы, которые вышли с разницей в неделю


s1: Simple test-time scaling
Статья: https://arxiv.org/abs/2501.19393
Код: https://github.com/simplescaling/s1

SFT на 1000 примерах про математику и программирование с цепочками рассуждений поверх Qwen 2.5 32B достаточно для жёсткого буста модели на AIME и GPQA Diamond.

Примеры отбирали из NuminaMATH, AIME прошлых лет, OlympicArena, OmniMath, AGIEval и двух своих датасетов (из экзамена на поступление на PhD в Стэнфорд и из собесов для квантов). Отбирали по качеству, сложности, и из разных категорий. Из 1000 примеров: 109 на геометрию, 98 на теорию чисел, 75 на комбинаторику, 41 на биологию. Остальное раскидано по разным другим областям математики и естественных наук (в основном физики). Ответы и цепочки спёрли у старшого брата, Gemini Flash Thinking, а позже у R1. Утечки тест сетов проверяли n-граммами.

Ещё одна прикольная штука: для увеличения длины генерации токен конца рассуждений принудительно заменяется на "Wait", а для сокращения принудительно вставляется "Final Answer:”. И вот такое принудительное увеличение длины совсем чуть-чуть растит метрики. В основную табличку интервалы, как водится, не завезли, прирост копеечный. Как контроль длины норм, но роста метрик по сравнению со стандартной генерацией там особо не видно.

В итоге по метрикам всё гораздо лучше оригинального Квена, на уровне o1-preview и QwQ. Код реально существует, включая пайплайн отбора данных.


LIMO: Less is More for Reasoning
Статья: https://arxiv.org/abs/2502.03387
Код: https://github.com/GAIR-NLP/LIMO

Всё то же самое! Тоже SFT, тоже почти 1к примеров, тоже тюн Qwen 2.5 32B, почти те же датасеты 😂

Основное отличие от s1 — от текста хочется блевать. 13 страниц основного текста! Первые 5 страниц просто ни о чём, как будто их языковая модель генерировала, и есть у меня ощущение, что даже сами авторы их не читали.

Примеры отбирали из NuminaMATH, AIME прошлых лет, MATH и каких-то других источников. Утверждается, что откуда-то набрались десятки миллионов задач 🤔
Процесс отбора примерно такой же как в s1, но ответы и цепочки спёрты либо из оригинальных решений, либо из ответов R1. Утверждается, что ответы отсматривались авторами вручную 🤣

На AIME24 они чуть хуже s1, на MATH500 повыше, но они на MATH и учились...

Короче, это китайская подделка s1. Не удивлюсь, если они за эту неделю с выхода s1 статью и написали. Удачи найти подробности отбора примеров в коде: их там нет. Более того, в их табличке в README у s1 нарисованы заниженные цифры 😁


Общий вывод:
Так-то круто, что SFT работает, и в предобучении уже всё на самом деле есть. s1 выглядит вполне воспроизводимой, хоть бы и для русского, рекомендую. Китайскую подделку не рекомендую.
Please open Telegram to view this post
VIEW IN TELEGRAM
И вдогонку микро-пост про источники.
Я теперь вместе с Daily Papers и всякими каналами читаю alphaxiv.org, там все хайповые вещи есть, и какое-то обсуждение статей. Хайповые по делу или нет — это уже другой вопрос. За рекламу сайта мне не платили (а могли бы).
Ура! закончился конкурс генерации мемов, AI Meme Arena!
Я занял второе место и заработал 2000$, как в общем-то и предполагал на протяжении всей последней недели.
Изначальное решение я сбацал на коленке за полтора часа, и с точки зрения кода оно менялось не очень сильно.

Краткое описание решения
- Memegen для наложения подписей на картинку (да, я настолько ленив).
- Видео-шаблоны только с одним форматом подписей: текст в чёрной части сверху.
- Claude 3.5 Sonnet 2024-10-22 в качестве модели.
- Случайный выбор 4 видео-шаблонов и 2 картиночных шаблонов в качестве кандидатов.
- Для каждого шаблона 2 примера заполнения подписей, плюс текстовое описание.
- Модель генерирует 3 варианта мемов, в том же запросе выбирает наилучший вариант с объяснением.
- В течение всего соревнования я отсекал шаблоны с плохими винрейтами и доливал новые. В конце осталось около 50 шаблонов.
- Основные источники шаблонов: стандартная библиотека Memegen, канал @membeztexta и шаблоны других участников.

Почему не первое место?
Во-первых, изначальная версия системы была очень низко, где-то на 6-7 месте, и собрала кучу проигранных битв, что критично в текущей системе голосования. Было это связано с форматом выхода: я генерировал напрямую URL для Memegen, что было ошибкой.
Во-вторых, система на первом месте отбирала шаблон по текстовым эмбеддингам, у меня же это тупо random.choice, который иногда возвращает не очень подходящий набор шаблонов. Имхо, вот это было не очень критично, потому что часто так было только смешнее, Соннету приходилось изворачиваться.

С точки зрения накруток всё по-моему было не очень чисто, но значительную часть в конце убрали.
Было весело, рад за @hikonon, который заслуженно занял первое место.

Код: https://github.com/IlyaGusev/memetron3000
Демку на неделе добавлю в бота.
Forwarded from Denis Sexy IT 🤖
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Kali Novskaya
🌸MLGym – открытый фреймворк и бенчмарк для Агентов в автоматизации ML-задач🌸
#nlp #про_nlp #nlp_papers

Сегодня, под конец этой насыщенной недели, мы с коллегами выпускаем новую работу "MLGym: A New Framework and Benchmark for Advancing AI Research Agents".

🟣TL;DR
MLGym – это фреймворк для оценки и развития LLM-агентов.
В нем пока 15 различных ML задач, включая хорошо и не очень определенные: задачи на NLP, CV, RL, теорию игр.
Агенты должны продемонстрировать свою способность понять задачу, запустить бейзлайн, оцени его, и начать итерировать эксперименты и улучшать результат, находясь при этом в заданной среде. В среде есть набор инструментов, которые можно использовать: поиск по файловой системе, поиск по файлам, модуль памяти, просмотр и изменение файлов, и собственно действия запуска скрипта оценки и сабмита решения.
Каждая задача содержит датасет, метрику, бейзлайн, а также свою собственную среду, где есть контролируемые ограничения на вычислительный бюджет и таймауты.

Мы предлагаем иерархическую структуру из 6 уровней для оценки степени автономии и научного вклада агентов:
Уровень 0: воспроизведение – аккуратно повторить чужие эксперименты без ошибок
Уровень 1: Итеративное улучшение бейзлайна – применение лучших практик, перебор гипертапаметров
Уровень 2: Достижение SOTA через итерации от бейзлайна – решение лучше тех, что смогли найти люди
Уровень 3: Новый научный вклад – можно быть принятым на условный NeurIPS
Уровень 4: Научное новаторство, фундаментальный научный вклад – можно получить "лучшую статью" на том же NeurIPS
Уровень 5: Долгосрочная исследовательская программа – test of time awards, научная революция, премия Тьюринга.

🟣Что мы выяснили?
Текущие ИИ системы находятся почти поголовно на уровне 1.

Удобно оценивать все системы относительно дельты, которую они смогли достичь, опираясь на бейзлайн, за заданное количество итераций (за первые 5 шагов у системы Х получили +15% точности, а у системы Y +20%). Если оценивать LLM-агенты так, то увидим, что O1-preview вырывается вперед практически на всех задачах. GPT-4o и LLama 3.1 405B примерно на одном уровне, Claude и Gemini делят обычно 2 и 3 место. Ну а если помимо дельты оценивать еще и стоимость инференса модели, но картина меняется, и лучше по соотношению оказывается Gemini с большим отрывом.  

Достаточно интересно посмотреть распределение действий агентов и их ошибок:
— большинство LLM-агентов делают ошибки и из-за этого не доходят до сабмита, тогда как O1 и Gemini гораздо чаще просто не доделывают сабмит до конца.
— все агенты большую часть действий тратят на изменение файлов: редактирование скриптов обучения, а также чтение файлов, запуск обучения и валидацию — соотношение действий примерно у всех одинаковое, хотя некоторым система действий требуется меньше.
— почти все агенты очень мало используют поиск, хотя могли бы.
— минимальное число итераций до первого сабмита — примерно 5. Все системы начинают с чтения файлов, затем запускают валидацию, и дальше планомерно итерируются, изменяя скрипты и запуская обучение.

🟣Что еще есть полезного?
— Классный Web UI визуализатор агентных логов на streamlit
— Есть набор полезных функций и tools, полностью совместимый с SWE-Agent.
— Есть модуль памяти, модуль поиска научной литературы, и еще много разных ништяков, которые можно использовать отдельно от бенчмарка, просто развивая своего агента (свой агент? Это же неодушевленное...)
— Есть большой обзор литературы, охватывающий почти все последние работы в области агентов для SWE, ML, науки, который угадайте кто писал.

Линейку задач можно легко расширять — поэтому мы будем рады идеям и контрибьюшенам, а также любой активности в репозитории.

🟣Arxiv: https://arxiv.org/abs/2502.14499
🟣Github: https://github.com/facebookresearch/MLGym
🟣Лицензия: CC-BY-NC 4.0
Please open Telegram to view this post
VIEW IN TELEGRAM
Последнее время с одним товарищем занимаемся инструментом для написания научных статей. Начало тут.
Всё ещё хочется нормально зарешать поиск литературы, и в качестве теста я использую 9 вопросов из разных источников. Из этих 9 вопросов нет ни одного, который бы нормально не гуглился. Все они при везении решаются в один поисковый запрос. Но везёт редко, и иногда из-за этого нужно несколько шагов. Как минимум для 3 вопросов есть серьёзные отвлекающие мишени. Например, в вопросе про спекулятивную генерацию LayerSkip — это неправильный ответ, но именно он обычно забивает первую страницу поисковой выдачи.

Пара технических вещей:
- Smolagents — основной фреймворк, который я использую, и у него даже сейчас есть видимые глазу косяки. Я уже несколько раз фиксил там баги. Все промпты я переписал, сейчас в них нет практически ни одной оригинальной строчки. При этом глобально пользоваться им приятно.
- Использую self-hosted Arize Phoenix для отображения траекторий. Инструмент очень нравится, как раз он на картинке.

Выводы на текущий момент:
- Траектории очень важно читать, иногда модели "срезают", и это надо исправлять. Например, o3-mini для 2 вопросов заранее знала ответ. Вот только для одного из вопросов ответ был неправильный...
- Глобальный поиск в интернете гораздо важнее локального поиска в конкретных источниках. Некоторые вопросы с ним решаются в один ход вместо 3-4 ходов.
- Соннет — единственная из пока протестированных моделей, которая находит правильные ответы на все 9 вопросов сразу. Но стоит она примерно по 1$ на вопрос.
- o3-mini неплоха для своей маленькой цены (меньше 10 центов на запрос), все основные эксперименты я пока провожу на ней. Стабильно выдаёт 7-8 правильных ответов.
Новый Соннет тоже решает 9 из 9 вопросов, но вы посмотрите на это количество токенов...

Это, конечно, связано с текущим промптом, в нём поощряется полнота. Но прошлый Соннет на том же промпте тратил в 3 раза меньше токенов.
Forwarded from Vikhr models
Yandex gpt5 8b вышла в opensource, в отличие от гигачата это llamalike, те она будет запускаться на любом ведре.

По метрикам лучше/бьёт llama3, qwen2.5 7b

Hf
gpt-4.5-preview сама не верит в цену gpt-4.5-preview
Ну что сказать по поводу GPT 4.5... Для своей цены это отвратительная модель. Стой она как Соннет, в ней бы был смысл. А так есть ноль ситуаций, где стоило бы пользоваться 4.5, а не Соннетом.
Я потихоньку двигаюсь к автоматическому исследователю.
Сегодня на повестке дня MLE solver, штука, которая должна по описанию задачи доставать датасеты, учить модельки и измерять метрики.
Но тут такое дело... У меня нет своих GPU. Да даже если бы и были, привязываться к конкретной инфре не очень хочется.

Поэтому я решил привязаться к чужой инфре 😳
Изначально я не очень понимал, как это всё должно быть устроено. Потыкался в Python SDK Runpod'а, но выяснилось, что они не поддерживают сбор логов с подов через API. Потыкался в Python SDK Vast.ai, но там тоже ничего толкового не получилось.

Но пока я тыкался, я понял, что это мне и не нужно. Что я делаю теперь:
1. Инструменты для LLM: функции remote_bash и remote_text_editor. Они позволяют исполнять команды на арендованном GPU и редактировать текстовые файлики там же.
2. Под капотом при первом вызове одной из этих функций арендуется железка. К ней пробрасывается ssh ключ, и все последующие команды выполняются через ssh и rsync.
3. Получившаяся конструкция более-менее независима от конкретного облака. Для LLM ничем не отличается от локального выполнения с точки зрения интерфейсов.
4. При убийстве скрипта любым способом арендованная машина тоже убивается.

Пока я в процессе дописывания, но как будто бы оно работает.
Please open Telegram to view this post
VIEW IN TELEGRAM
Выложил Сайгу на базе YandexGPT-5 Lite.

HF: https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b
Кванты: https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b_gguf

В полтора раза меньше Немо, лучше токенизация, а качество примерно то же: на ПингПонге чуть лучше Немо, на Арене чуть хуже.

Модель SFT + RL. В SFT долил диалогов из бота за последние полгода. RL делал с Вихрвёским SMPO, он гораздо стабильнее SimPO.

Визуально всё в порядке, в ранних версиях была проблема с повторами, но сейчас вроде всё хорошо.

Лицензия только фиговая 😭
Please open Telegram to view this post
VIEW IN TELEGRAM
Сейчас был эпизод из передачи "В мире агентов".

Есть у меня агент-начальник и два его подчинённых, библиотекарь и MLE. Задача — обучить CIFAR-10 минимум на 85% точности. Решается за 10 минут при наличии GPU. Модель: Claude 3.7 Sonnet.

Сначала всё идёт хорошо, начальник делегирует задачу MLE подчинённому, тот исследует датасет, пишет код, код запускается, модель обучается, метрики возвращаются, и даже 85%+. Казалось бы, всё хорошо. Но чу! Начальник не верит результатам и хочет перепроверить всё сам. Для этого он тоже пишет код, пытается его запустить, что несколько затруднительно без библиотек и GPU. После пары беуспешных попыток он поручает независимо проверить результаты... да-да, тому же подчиненному.
Forwarded from Hacker News
Show HN: Factorio Learning Environment – Agents Build Factories (🔥 Score: 159+ in 2 hours)

Link: https://readhacker.news/s/6qKug
Comments: https://readhacker.news/c/6qKug

I'm Jack, and I'm excited to share a project that has channeled my Factorio addiction recently: the Factorio Learning Environment (FLE).
FLE is an open-source framework for developing and evaluating LLM agents in Factorio. It provides a controlled environment where AI models can attempt complex automation, resource management, and optimisation tasks in a grounded world with meaningful constraints.
A critical advantage of Factorio as a benchmark is its unbounded nature. Unlike many evals that are quickly saturated by newer models, Factorio's geometric complexity scaling means it won't be "solved" in the next 6 months (or possibly even years). This allows us to meaningfully compare models by the order-of-magnitude of resources they can produce - creating a benchmark with longevity.
The project began 18 months ago after years of playing Factorio, recognising its potential as an AI research testbed. A few months ago, our team (myself, Akbir, and Mart) came together to create a benchmark that tests agent capabilities in spatial reasoning and long-term planning.
Two technical innovations drove this project forward: First, we discovered that piping Lua into the Factorio console over TCP enables running (almost) arbitrary code without directly modding the game. Second, we developed a first-class Python API that wraps these Lua programs to provide a clean, type-hinted interface for AI agents to interact with Factorio through familiar programming paradigms.
Agents interact with FLE through a REPL pattern:
1. They observe the world (seeing the output of their last action)
2. Generate Python code to perform their next action
3. Receive detailed feedback (including exceptions and stdout)
We provide two main evaluation settings:
- Lab-play: 24 structured tasks with fixed resources
- Open-play: An unbounded task of building the largest possible factory on a procedurally generated map
We found that while LLMs show promising short-horizon skills, they struggle with spatial reasoning in constrained environments. They can discover basic automation strategies (like electric-powered drilling) but fail to achieve more complex automation (like electronic circuit manufacturing). Claude Sonnet 3.5 is currently the best model (by a significant margin).
The code is available at https://github.com/JackHopkins/factorio-learning-environment.
You'll need:
- Factorio (version 1.1.110)
- Docker
- Python 3.10+
The README contains detailed installation instructions and examples of how to run evaluations with different LLM agents.
We would love to hear your thoughts and see what others can do with this framework!
2025/06/29 17:37:47
Back to Top
HTML Embed Code: