senior_augur Telegram Group

3.8K views14:24

🔸

Open Talks Special: Лидеры русскоязычного open source LLM в одном эфире.

5 февраля в 19:00 собираем ключевых независимых разработчиков опенсорсных русскоязычных LLM и говорим о том, что волнует AI-сообщество прямо сейчас:

➡️ Как создаются русскоязычные LLM и с какими вызовами сталкиваются их разработчики?

➡️Что ждет опенсорсные AI-решения в будущем?

➡️ Как DeepSeek меняет правила игры?

Спикеры:

🎤

Михаил Тихомиров – научный сотрудник НИВЦ МГУ, занимается адаптацией мультиязычных LLM, создатель Ruadapt➡️Топовая модель показывает 92 балла на балла на Ru Arena General

🎤

Илья Гусев – автор Сайги ➡️одной из самых скачиваемых русскоязычных моделей на HF, а также role-play бенчмарка PingPong

🎤

Александр Николич – один из авторов Rudalle и Kandinsky, создатель Vikhr models

➡️

одни из лучших моделей на русском языке до 20B параметров, один из самых популярных бенчмарков

🔸

Проведет эфир Павел Подкорытов, сооснователь AI Talent Hub и CEO Napoleon IT.

🤔

Не увидел важного вопроса в анонсе?

➡️

Регистрируйся и задай свой вопрос экспертам!

Приходи! Без тебя – не то

💘

#OpenTalks
#AITalentHub #ITMO #NapoleonIT

Please open Telegram to view this post

VIEW IN TELEGRAM

3.0K views15:42

Старший Авгур

Forwarded from Лентач

Please open Telegram to view this post

VIEW IN TELEGRAM

3.3K views11:16

Старший Авгур

Недавно я обратил внимание на один гениальный ход DeepSeek.

Про то, что при обучении модель училась предсказывать сразу несколько токенов, знают примерно все.

Про то, что для этого использовались не просто независимые головы (как в Медузе), а целые трансформерные слои, на вход которых подавались в том числе проекции с предыдущих шагов, знают все, кто читал статью. Там же написано, что они переиспользуют эти мини-трансформеры (MTP-модули) для инференса.

А вы знаете, сколько MTP модулей было выложено вместе с моделью?
- ОДИН.
Источник.

Таким образом, для себя они, вероятно, оставили 4-5 MTP-модулей, а наружу выложили только 1. То есть, они могут инферить модель в 2-3 раза быстрее, чем любые другие провайдеры. Вы конечно можете дообучить больше MTP модулей или вообще перейти на Медузу, но это потребует нетривиальных усилий. В итоге модель-то открытая, но конкуренты всё равно в дураках.

5.2K viewsedited 18:51

Старший Авгур

Forwarded from Vikhr models

⚡️ QVikhr-2.5-1.5B-Instruct-SMPO — Наша новая компактная llm теперь еще и с RLHF этапом. За счет RLHF получили качественный прирост по метрикам, а за счет размера гонять можно хоть на тостере!

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO
🔗 GGUF: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO_GGUF
🔗 Презентация Preference Optimization: https://docs.google.com/presentation/d/1WDzavFCtCeF8A9i0-hyyE9e8N1f_ieijyGiS4N0sAGQ/edit?usp=sharing

Коллектив авторов: @LakoMoorDev @nlpwanderer

2.5K views13:22

Старший Авгур

Forwarded from Love. Death. Transformers.

Ладно уже не смешно.

Hf выложили свой deepresearch на o1, c полностью открытым кодом, на Gaia выдает 55%(против 67% у openai)

Блог: huggingface.co/blog/open-deep-research

huggingface.co

Open-source DeepResearch – Freeing our search agents

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

2.8K views21:14

Старший Авгур

Тут вот какое дело...

Пост — реклама smolagents. В реальности дела мягко говоря обстоят не так хорошо. Начиная со стоимости вот этого всего (легко тратится до 10$ на один вопрос), заканчивая длинным хвостом задач, которые вообще нормально агентами не решаются, хотя люди их решат за 5-10 минут. Я, конечно, экспериментировал со своими инструментами, а не с чужими, но инструменты из поста написаны скорее хуже, а не лучше.

Самая непобедимая проблема для меня пока — заставить агента читать все страницы выдачи, а не только первые 2-3. И желательно только в тех случаях, где это реально нужно.

4.2K viewsedited 21:27

Старший Авгур

Читаю я эссе Уоррена Уивера 1949 года о машинном переводе (не спрашивайте, как так получилось), и что я вижу? Word2vec/MLM.

4.2K views11:11

Старший Авгур

Forwarded from Denis Sexy IT 🤖

1:16

Media is too big

VIEW IN TELEGRAM

Классный новый алгоритм на подходе:
Даем на вход картинку, аудио и модель сама оживляет персонажа

Кода пока нет, сайт проекта тут:
https://omnihuman-lab.github.io/

Жду не дождусь чтобы исторические фото помучать

3.9K views14:55

Старший Авгур

Бенч 10/10, спасибо Игорю.
http://platinum-bench.csail.mit.edu/

Люди собрали чуть-чуть простых задач с мега-супер-пупер правильными ответами, и оценивают стабильность моделек.
В такой постановке даже древнющий Navigate из BigBench'а внезапно становится хорошо разделяющей задачей.
Статью можно не читать, можно просто поштырить в ошибки.

5.8K views19:48

Старший Авгур

Призываю всех пойти погенерить и пооценивать мемы в @AIMemeArenaBot.
За себя голосовать не призываю, там всё равно метки скрытые, но в свою систему верю.
Голосуй, или я проиграю 😁

Please open Telegram to view this post

VIEW IN TELEGRAM

4.9K views09:49

Старший Авгур

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

Мем, сгенерированный по предыдущему сообщению.

4.8K views09:53

Старший Авгур

Forwarded from Vikhr models

⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO этапом. За счет GRPO это теперь первая reasoning модель на русском языке с честным RL .

🔗 Карточка модели:
https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r

3.3K views16:01

Старший Авгур

Статьи-близнецы, которые вышли с разницей в неделю

s1: Simple test-time scaling
Статья: https://arxiv.org/abs/2501.19393
Код: https://github.com/simplescaling/s1

SFT на 1000 примерах про математику и программирование с цепочками рассуждений поверх Qwen 2.5 32B достаточно для жёсткого буста модели на AIME и GPQA Diamond.

Примеры отбирали из NuminaMATH, AIME прошлых лет, OlympicArena, OmniMath, AGIEval и двух своих датасетов (из экзамена на поступление на PhD в Стэнфорд и из собесов для квантов). Отбирали по качеству, сложности, и из разных категорий. Из 1000 примеров: 109 на геометрию, 98 на теорию чисел, 75 на комбинаторику, 41 на биологию. Остальное раскидано по разным другим областям математики и естественных наук (в основном физики). Ответы и цепочки спёрли у старшого брата, Gemini Flash Thinking, а позже у R1. Утечки тест сетов проверяли n-граммами.

Ещё одна прикольная штука: для увеличения длины генерации токен конца рассуждений принудительно заменяется на "Wait", а для сокращения принудительно вставляется "Final Answer:”. И вот такое принудительное увеличение длины совсем чуть-чуть растит метрики. В основную табличку интервалы, как водится, не завезли, прирост копеечный. Как контроль длины норм, но роста метрик по сравнению со стандартной генерацией там особо не видно.

В итоге по метрикам всё гораздо лучше оригинального Квена, на уровне o1-preview и QwQ. Код реально существует, включая пайплайн отбора данных.

LIMO: Less is More for Reasoning
Статья: https://arxiv.org/abs/2502.03387
Код: https://github.com/GAIR-NLP/LIMO

Всё то же самое! Тоже SFT, тоже почти 1к примеров, тоже тюн Qwen 2.5 32B, почти те же датасеты 😂

Основное отличие от s1 — от текста хочется блевать. 13 страниц основного текста! Первые 5 страниц просто ни о чём, как будто их языковая модель генерировала, и есть у меня ощущение, что даже сами авторы их не читали.

Примеры отбирали из NuminaMATH, AIME прошлых лет, MATH и каких-то других источников. Утверждается, что откуда-то набрались десятки миллионов задач

🤔

Процесс отбора примерно такой же как в s1, но ответы и цепочки спёрты либо из оригинальных решений, либо из ответов R1. Утверждается, что ответы отсматривались авторами вручную 🤣

На AIME24 они чуть хуже s1, на MATH500 повыше, но они на MATH и учились...

Короче, это китайская подделка s1. Не удивлюсь, если они за эту неделю с выхода s1 статью и написали. Удачи найти подробности отбора примеров в коде: их там нет. Более того, в их табличке в README у s1 нарисованы заниженные цифры 😁

Общий вывод:
Так-то круто, что SFT работает, и в предобучении уже всё на самом деле есть. s1 выглядит вполне воспроизводимой, хоть бы и для русского, рекомендую. Китайскую подделку не рекомендую.

Please open Telegram to view this post

VIEW IN TELEGRAM

3.2K viewsedited 22:53

Старший Авгур

И вдогонку микро-пост про источники.
Я теперь вместе с Daily Papers и всякими каналами читаю alphaxiv.org, там все хайповые вещи есть, и какое-то обсуждение статей. Хайповые по делу или нет — это уже другой вопрос. За рекламу сайта мне не платили (а могли бы).

3.3K views23:30

Старший Авгур

Запись эфира от 5 февраля со всеми ребятами: мной, Сашей (Вихрь), Мишей (RuAdapt) и Гришей (GigaChat).

https://www.youtube.com/watch?v=MvRSroMG5Y0

YouTube

Лидеры Open source LLM на русском, в одном эфире – Open Talks Special

◼️ Open Talks – Открытый митап с AI-экспертами, подписывайся на нас в Telegram, чтобы смотреть Open Talks в прямом эфире и задавать вопросы экспертам: http://www.group-telegram.com/aitalenthubnews
◼️ AI Talent Hub: https://ai.itmo.ru/?utm_source=youtube&utm_medium=ot_sp…

4.2K views12:35

Старший Авгур

Я ещё иногда на работе работу работаю.

Пост про использование Медузы, про нашу коллаборацию с AWS ProServe: https://aws.amazon.com/blogs/machine-learning/achieve-2x-speed-up-in-llm-inference-with-medusa-1-on-amazon-sagemaker-ai/

Amazon

Achieve ~2x speed-up in LLM inference with Medusa-1 on Amazon SageMaker AI | Amazon Web Services

Researchers developed Medusa, a framework to speed up LLM inference by adding extra heads to predict multiple tokens simultaneously. This post demonstrates how to use Medusa-1, the first version of the framework, to speed up an LLM by fine-tuning it on Amazon…

3.2K views12:54

Старший Авгур

Ура! закончился конкурс генерации мемов, AI Meme Arena!
Я занял второе место и заработал 2000$, как в общем-то и предполагал на протяжении всей последней недели.
Изначальное решение я сбацал на коленке за полтора часа, и с точки зрения кода оно менялось не очень сильно.

Краткое описание решения
- Memegen для наложения подписей на картинку (да, я настолько ленив).
- Видео-шаблоны только с одним форматом подписей: текст в чёрной части сверху.
- Claude 3.5 Sonnet 2024-10-22 в качестве модели.
- Случайный выбор 4 видео-шаблонов и 2 картиночных шаблонов в качестве кандидатов.
- Для каждого шаблона 2 примера заполнения подписей, плюс текстовое описание.
- Модель генерирует 3 варианта мемов, в том же запросе выбирает наилучший вариант с объяснением.
- В течение всего соревнования я отсекал шаблоны с плохими винрейтами и доливал новые. В конце осталось около 50 шаблонов.
- Основные источники шаблонов: стандартная библиотека Memegen, канал @membeztexta и шаблоны других участников.

Почему не первое место?
Во-первых, изначальная версия системы была очень низко, где-то на 6-7 месте, и собрала кучу проигранных битв, что критично в текущей системе голосования. Было это связано с форматом выхода: я генерировал напрямую URL для Memegen, что было ошибкой.
Во-вторых, система на первом месте отбирала шаблон по текстовым эмбеддингам, у меня же это тупо random.choice, который иногда возвращает не очень подходящий набор шаблонов. Имхо, вот это было не очень критично, потому что часто так было только смешнее, Соннету приходилось изворачиваться.

С точки зрения накруток всё по-моему было не очень чисто, но значительную часть в конце убрали.
Было весело, рад за @hikonon, который заслуженно занял первое место.

Код: https://github.com/IlyaGusev/memetron3000
Демку на неделе добавлю в бота.

2.3K viewsedited 15:28

Старший Авгур

Forwarded from Denis Sexy IT 🤖

Please open Telegram to view this post

VIEW IN TELEGRAM

1.3K views21:58

Старший Авгур

Forwarded from Kali Novskaya

🌸MLGym – открытый фреймворк и бенчмарк для Агентов в автоматизации ML-задач🌸
#nlp #про_nlp #nlp_papers

Сегодня, под конец этой насыщенной недели, мы с коллегами выпускаем новую работу "MLGym: A New Framework and Benchmark for Advancing AI Research Agents".

🟣TL;DR
MLGym – это фреймворк для оценки и развития LLM-агентов.
В нем пока 15 различных ML задач, включая хорошо и не очень определенные: задачи на NLP, CV, RL, теорию игр.
Агенты должны продемонстрировать свою способность понять задачу, запустить бейзлайн, оцени его, и начать итерировать эксперименты и улучшать результат, находясь при этом в заданной среде. В среде есть набор инструментов, которые можно использовать: поиск по файловой системе, поиск по файлам, модуль памяти, просмотр и изменение файлов, и собственно действия запуска скрипта оценки и сабмита решения.
Каждая задача содержит датасет, метрику, бейзлайн, а также свою собственную среду, где есть контролируемые ограничения на вычислительный бюджет и таймауты.

Мы предлагаем иерархическую структуру из 6 уровней для оценки степени автономии и научного вклада агентов:
Уровень 0: воспроизведение – аккуратно повторить чужие эксперименты без ошибок
Уровень 1: Итеративное улучшение бейзлайна – применение лучших практик, перебор гипертапаметров
Уровень 2: Достижение SOTA через итерации от бейзлайна – решение лучше тех, что смогли найти люди
Уровень 3: Новый научный вклад – можно быть принятым на условный NeurIPS
Уровень 4: Научное новаторство, фундаментальный научный вклад – можно получить "лучшую статью" на том же NeurIPS
Уровень 5: Долгосрочная исследовательская программа – test of time awards, научная революция, премия Тьюринга.

🟣Что мы выяснили?
Текущие ИИ системы находятся почти поголовно на уровне 1.

Удобно оценивать все системы относительно дельты, которую они смогли достичь, опираясь на бейзлайн, за заданное количество итераций (за первые 5 шагов у системы Х получили +15% точности, а у системы Y +20%). Если оценивать LLM-агенты так, то увидим, что O1-preview вырывается вперед практически на всех задачах. GPT-4o и LLama 3.1 405B примерно на одном уровне, Claude и Gemini делят обычно 2 и 3 место. Ну а если помимо дельты оценивать еще и стоимость инференса модели, но картина меняется, и лучше по соотношению оказывается Gemini с большим отрывом.

Достаточно интересно посмотреть распределение действий агентов и их ошибок:
— большинство LLM-агентов делают ошибки и из-за этого не доходят до сабмита, тогда как O1 и Gemini гораздо чаще просто не доделывают сабмит до конца.
— все агенты большую часть действий тратят на изменение файлов: редактирование скриптов обучения, а также чтение файлов, запуск обучения и валидацию — соотношение действий примерно у всех одинаковое, хотя некоторым система действий требуется меньше.
— почти все агенты очень мало используют поиск, хотя могли бы.
— минимальное число итераций до первого сабмита — примерно 5. Все системы начинают с чтения файлов, затем запускают валидацию, и дальше планомерно итерируются, изменяя скрипты и запуская обучение.

🟣Что еще есть полезного?
— Классный Web UI визуализатор агентных логов на streamlit
— Есть набор полезных функций и tools, полностью совместимый с SWE-Agent.
— Есть модуль памяти, модуль поиска научной литературы, и еще много разных ништяков, которые можно использовать отдельно от бенчмарка, просто развивая своего агента (свой агент? Это же неодушевленное...).
— Есть большой обзор литературы, охватывающий почти все последние работы в области агентов для SWE, ML, науки, который угадайте кто писал.

Линейку задач можно легко расширять — поэтому мы будем рады идеям и контрибьюшенам, а также любой активности в репозитории.

🟣Arxiv: https://arxiv.org/abs/2502.14499

🟣

Github: https://github.com/facebookresearch/MLGym
🟣Лицензия: CC-BY-NC 4.0

Please open Telegram to view this post

VIEW IN TELEGRAM

arXiv.org

MLGym: A New Framework and Benchmark for Advancing AI Research Agents

We introduce Meta MLGym and MLGym-Bench, a new framework and benchmark for evaluating and developing LLM agents on AI research tasks. This is the first Gym environment for machine learning (ML)...

656 views10:37

2025/02/21 22:07:21
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>