senior_augur Telegram Group

Старший Авгур

О стоимости Deepseek v3

- Llama 3 70B, 15T токенов, 6.4M H100 часов, примерно 16M$. Источник.
- Deepseek 67B, 2T токенов, 600K H800 часов, примерно 1.2M$. Источник 1, источник 2.
- Deepseek v2 236B MoE, 21B active, 8T токенов, 1.4M H800 часов, примерно 2.8M$. Источник.
- Deepseek v3 671B MoE, 37B active, 15T токенов, 2.8M H800 часов, примерно 5.6M$. Источник.

H800 оценена как 2$ в час, H100 как 2.5$ в час.
Качество моделей не сравнивается, цель была не в этом.
Кроме того, в этом сравнении нет утилизации карточек (спасибо Саше за этот комментарий).
(И второму Саше за указание на 8T токенов у v2).
Кроме того, очевидно, что это только одна попытка, в плохих случаях их может быть 10+ (см. например 13 попыток древнейшего OPT-175B).
Кроме того, очевидно, что это ничего не говорит о Deepseek R1.

Выводы:
- Deepseek каждый раз в 2 раза повышал бюджет.
- Deepseek v3 должен бы стоить в 2-3 раза дороже v2, но стоит столько же (в пересчёте на 1T токенов) из-за хороших инженеров.
- Llama гораздо дороже, но и гораздо древнее.

4.1K viewsedited 10:28

Старший Авгур

Forwarded from Свидетели сингулярности (Ilia Udalov)

🥁🥁 🥁
А вот и наш первый выпуск!
Говорим Про LLM c Ильёй Гусевым, затронем темы:
- что сейчас есть интересного из моделей на русском;
- как померить что модель крутая и как все хакают эти метрики;
- доисторические технологии, как генерировали тексты до 2020х годов;
- можно ли запустить ламу на чайнике, холодильнике и другой кухонной утвари;
- когда будет AGI и пора ли подыскивать другую работу;
- кого слушать и куда смотреть, чтобы ничего не пропустить.

Также подписывайтесь на канал Ильи, он прикольный: @senior_augur

N.B.
Мы записывали выпуск до шумихи с DeepSeek, но такое пропустить нельзя, поэтому у нас скоро выйдет бонус эпизод.
И на этом с LLM закончим, честно-честно 😉

Spotify | Яндекс.Музыка

3.7K views13:54

Старший Авгур

https://mistral.ai/news/mistral-small-3/

mistral.ai

Mistral Small 3 | Mistral AI

Mistral Small 3: Apache 2.0, 81% MMLU, 150 tokens/s

3.8K views14:24

Старший Авгур

Forwarded from Al Talent Hub

🔸

Open Talks Special: Лидеры русскоязычного open source LLM в одном эфире.

5 февраля в 19:00 собираем ключевых независимых разработчиков опенсорсных русскоязычных LLM и говорим о том, что волнует AI-сообщество прямо сейчас:

➡️ Как создаются русскоязычные LLM и с какими вызовами сталкиваются их разработчики?

➡️Что ждет опенсорсные AI-решения в будущем?

➡️ Как DeepSeek меняет правила игры?

Спикеры:

🎤

Михаил Тихомиров – научный сотрудник НИВЦ МГУ, занимается адаптацией мультиязычных LLM, создатель Ruadapt➡️Топовая модель показывает 92 балла на балла на Ru Arena General

🎤

Илья Гусев – автор Сайги ➡️одной из самых скачиваемых русскоязычных моделей на HF, а также role-play бенчмарка PingPong

🎤

Александр Николич – один из авторов Rudalle и Kandinsky, создатель Vikhr models

➡️

одни из лучших моделей на русском языке до 20B параметров, один из самых популярных бенчмарков

🔸

Проведет эфир Павел Подкорытов, сооснователь AI Talent Hub и CEO Napoleon IT.

🤔

Не увидел важного вопроса в анонсе?

➡️

Регистрируйся и задай свой вопрос экспертам!

Приходи! Без тебя – не то

💘

#OpenTalks
#AITalentHub #ITMO #NapoleonIT

Please open Telegram to view this post

VIEW IN TELEGRAM

2.9K views15:42

Старший Авгур

Forwarded from Лентач

Please open Telegram to view this post

VIEW IN TELEGRAM

3.2K views11:16

Старший Авгур

Недавно я обратил внимание на один гениальный ход DeepSeek.

Про то, что при обучении модель училась предсказывать сразу несколько токенов, знают примерно все.

Про то, что для этого использовались не просто независимые головы (как в Медузе), а целые трансформерные слои, на вход которых подавались в том числе проекции с предыдущих шагов, знают все, кто читал статью. Там же написано, что они переиспользуют эти мини-трансформеры (MTP-модули) для инференса.

А вы знаете, сколько MTP модулей было выложено вместе с моделью?
- ОДИН.
Источник.

Таким образом, для себя они, вероятно, оставили 4-5 MTP-модулей, а наружу выложили только 1. То есть, они могут инферить модель в 2-3 раза быстрее, чем любые другие провайдеры. Вы конечно можете дообучить больше MTP модулей или вообще перейти на Медузу, но это потребует нетривиальных усилий. В итоге модель-то открытая, но конкуренты всё равно в дураках.

5.0K viewsedited 18:51

Старший Авгур

Forwarded from Vikhr models

⚡️ QVikhr-2.5-1.5B-Instruct-SMPO — Наша новая компактная llm теперь еще и с RLHF этапом. За счет RLHF получили качественный прирост по метрикам, а за счет размера гонять можно хоть на тостере!

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO
🔗 GGUF: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO_GGUF
🔗 Презентация Preference Optimization: https://docs.google.com/presentation/d/1WDzavFCtCeF8A9i0-hyyE9e8N1f_ieijyGiS4N0sAGQ/edit?usp=sharing

Коллектив авторов: @LakoMoorDev @nlpwanderer

2.4K views13:22

Старший Авгур

Forwarded from Love. Death. Transformers.

Ладно уже не смешно.

Hf выложили свой deepresearch на o1, c полностью открытым кодом, на Gaia выдает 55%(против 67% у openai)

Блог: huggingface.co/blog/open-deep-research

huggingface.co

Open-source DeepResearch – Freeing our search agents

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

2.6K views21:14

Старший Авгур

Тут вот какое дело...

Пост — реклама smolagents. В реальности дела мягко говоря обстоят не так хорошо. Начиная со стоимости вот этого всего (легко тратится до 10$ на один вопрос), заканчивая длинным хвостом задач, которые вообще нормально агентами не решаются, хотя люди их решат за 5-10 минут. Я, конечно, экспериментировал со своими инструментами, а не с чужими, но инструменты из поста написаны скорее хуже, а не лучше.

Самая непобедимая проблема для меня пока — заставить агента читать все страницы выдачи, а не только первые 2-3. И желательно только в тех случаях, где это реально нужно.

3.7K viewsedited 21:27

Старший Авгур

Читаю я эссе Уоррена Уивера 1949 года о машинном переводе (не спрашивайте, как так получилось), и что я вижу? Word2vec/MLM.

3.8K views11:11

Старший Авгур

Forwarded from Denis Sexy IT 🤖

1:16

Media is too big

VIEW IN TELEGRAM

Классный новый алгоритм на подходе:
Даем на вход картинку, аудио и модель сама оживляет персонажа

Кода пока нет, сайт проекта тут:
https://omnihuman-lab.github.io/

Жду не дождусь чтобы исторические фото помучать

3.7K views14:55

Старший Авгур

Бенч 10/10, спасибо Игорю.
http://platinum-bench.csail.mit.edu/

Люди собрали чуть-чуть простых задач с мега-супер-пупер правильными ответами, и оценивают стабильность моделек.
В такой постановке даже древнющий Navigate из BigBench'а внезапно становится хорошо разделяющей задачей.
Статью можно не читать, можно просто поштырить в ошибки.

5.2K views19:48

Старший Авгур

Призываю всех пойти погенерить и пооценивать мемы в @AIMemeArenaBot.
За себя голосовать не призываю, там всё равно метки скрытые, но в свою систему верю.
Голосуй, или я проиграю 😁

Please open Telegram to view this post

VIEW IN TELEGRAM

4.6K views09:49

Старший Авгур

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

Мем, сгенерированный по предыдущему сообщению.

4.5K views09:53

Старший Авгур

Forwarded from Vikhr models

⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO этапом. За счет GRPO это теперь первая reasoning модель на русском языке с честным RL .

🔗 Карточка модели:
https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r

3.0K views16:01

Старший Авгур

Статьи-близнецы, которые вышли с разницей в неделю

s1: Simple test-time scaling
Статья: https://arxiv.org/abs/2501.19393
Код: https://github.com/simplescaling/s1

SFT на 1000 примерах про математику и программирование с цепочками рассуждений поверх Qwen 2.5 32B достаточно для жёсткого буста модели на AIME и GPQA Diamond.

Примеры отбирали из NuminaMATH, AIME прошлых лет, OlympicArena, OmniMath, AGIEval и двух своих датасетов (из экзамена на поступление на PhD в Стэнфорд и из собесов для квантов). Отбирали по качеству, сложности, и из разных категорий. Из 1000 примеров: 109 на геометрию, 98 на теорию чисел, 75 на комбинаторику, 41 на биологию. Остальное раскидано по разным другим областям математики и естественных наук (в основном физики). Ответы и цепочки спёрли у старшого брата, Gemini Flash Thinking, а позже у R1. Утечки тест сетов проверяли n-граммами.

Ещё одна прикольная штука: для увеличения длины генерации токен конца рассуждений принудительно заменяется на "Wait", а для сокращения принудительно вставляется "Final Answer:”. И вот такое принудительное увеличение длины совсем чуть-чуть растит метрики. В основную табличку интервалы, как водится, не завезли, прирост копеечный. Как контроль длины норм, но роста метрик по сравнению со стандартной генерацией там особо не видно.

В итоге по метрикам всё гораздо лучше оригинального Квена, на уровне o1-preview и QwQ. Код реально существует, включая пайплайн отбора данных.

LIMO: Less is More for Reasoning
Статья: https://arxiv.org/abs/2502.03387
Код: https://github.com/GAIR-NLP/LIMO

Всё то же самое! Тоже SFT, тоже почти 1к примеров, тоже тюн Qwen 2.5 32B, почти те же датасеты 😂

Основное отличие от s1 — от текста хочется блевать. 13 страниц основного текста! Первые 5 страниц просто ни о чём, как будто их языковая модель генерировала, и есть у меня ощущение, что даже сами авторы их не читали.

Примеры отбирали из NuminaMATH, AIME прошлых лет, MATH и каких-то других источников. Утверждается, что откуда-то набрались десятки миллионов задач

🤔

Процесс отбора примерно такой же как в s1, но ответы и цепочки спёрты либо из оригинальных решений, либо из ответов R1. Утверждается, что ответы отсматривались авторами вручную 🤣

На AIME24 они чуть хуже s1, на MATH500 повыше, но они на MATH и учились...

Короче, это китайская подделка s1. Не удивлюсь, если они за эту неделю с выхода s1 статью и написали. Удачи найти подробности отбора примеров в коде: их там нет. Более того, в их табличке в README у s1 нарисованы заниженные цифры 😁

Общий вывод:
Так-то круто, что SFT работает, и в предобучении уже всё на самом деле есть. s1 выглядит вполне воспроизводимой, хоть бы и для русского, рекомендую. Китайскую подделку не рекомендую.

Please open Telegram to view this post

VIEW IN TELEGRAM

2.7K viewsedited 22:53

Старший Авгур

И вдогонку микро-пост про источники.
Я теперь вместе с Daily Papers и всякими каналами читаю alphaxiv.org, там все хайповые вещи есть, и какое-то обсуждение статей. Хайповые по делу или нет — это уже другой вопрос. За рекламу сайта мне не платили (а могли бы).

2.8K views23:30

Старший Авгур

Запись эфира от 5 февраля со всеми ребятами: мной, Сашей (Вихрь), Мишей (RuAdapt) и Гришей (GigaChat).

https://www.youtube.com/watch?v=MvRSroMG5Y0

YouTube

Лидеры Open source LLM на русском, в одном эфире – Open Talks Special

◼️ Open Talks – Открытый митап с AI-экспертами, подписывайся на нас в Telegram, чтобы смотреть Open Talks в прямом эфире и задавать вопросы экспертам: http://www.group-telegram.com/aitalenthubnews
◼️ AI Talent Hub: https://ai.itmo.ru/?utm_source=youtube&utm_medium=ot_sp…

3.4K views12:35

Старший Авгур

Я ещё иногда на работе работу работаю.

Пост про использование Медузы, про нашу коллаборацию с AWS ProServe: https://aws.amazon.com/blogs/machine-learning/achieve-2x-speed-up-in-llm-inference-with-medusa-1-on-amazon-sagemaker-ai/

Amazon

Achieve ~2x speed-up in LLM inference with Medusa-1 on Amazon SageMaker AI | Amazon Web Services

Researchers developed Medusa, a framework to speed up LLM inference by adding extra heads to predict multiple tokens simultaneously. This post demonstrates how to use Medusa-1, the first version of the framework, to speed up an LLM by fine-tuning it on Amazon…

2.2K views12:54

Старший Авгур

Ура! закончился конкурс генерации мемов, AI Meme Arena!
Я занял второе место и заработал 2000$, как в общем-то и предполагал на протяжении всей последней недели.
Изначальное решение я сбацал на коленке за полтора часа, и с точки зрения кода оно менялось не очень сильно.

Краткое описание решения
- Memegen для наложения подписей на картинку (да, я настолько ленив).
- Видео-шаблоны только с одним форматом подписей: текст в чёрной части сверху.
- Claude 3.5 Sonnet 2024-10-22 в качестве модели.
- Случайный выбор 4 видео-шаблонов и 2 картиночных шаблонов в качестве кандидатов.
- Для каждого шаблона 2 примера заполнения подписей, плюс текстовое описание.
- Модель генерирует 3 варианта мемов, в том же запросе выбирает наилучший вариант с объяснением.
- В течение всего соревнования я отсекал шаблоны с плохими винрейтами и доливал новые. В конце осталось около 50 шаблонов.
- Основные источники шаблонов: стандартная библиотека Memegen, канал @membeztexta и шаблоны других участников.

Почему не первое место?
Во-первых, изначальная версия системы была очень низко, где-то на 6-7 месте, и собрала кучу проигранных битв, что критично в текущей системе голосования. Было это связано с форматом выхода: я генерировал напрямую URL для Memegen, что было ошибкой.
Во-вторых, система на первом месте отбирала шаблон по текстовым эмбеддингам, у меня же это тупо random.choice, который иногда возвращает не очень подходящий набор шаблонов. Имхо, вот это было не очень критично, потому что часто так было только смешнее, Соннету приходилось изворачиваться.

С точки зрения накруток всё по-моему было не очень чисто, но значительную часть в конце убрали.
Было весело, рад за @hikonon, который заслуженно занял первое место.

Код: https://github.com/IlyaGusev/memetron3000
Демку на неделе добавлю в бота.

1.4K viewsedited 15:28

2025/02/19 00:12:42
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>