О стоимости Deepseek v3
- Llama 3 70B, 15T токенов, 6.4M H100 часов, примерно 16M$. Источник.
- Deepseek 67B, 2T токенов, 600K H800 часов, примерно 1.2M$. Источник 1, источник 2.
- Deepseek v2 236B MoE, 21B active, 8T токенов, 1.4M H800 часов, примерно 2.8M$. Источник.
- Deepseek v3 671B MoE, 37B active, 15T токенов, 2.8M H800 часов, примерно 5.6M$. Источник.
H800 оценена как 2$ в час, H100 как 2.5$ в час.
Качество моделей не сравнивается, цель была не в этом.
Кроме того, в этом сравнении нет утилизации карточек (спасибо Саше за этот комментарий).
(И второму Саше за указание на 8T токенов у v2).
Кроме того, очевидно, что это только одна попытка, в плохих случаях их может быть 10+ (см. например 13 попыток древнейшего OPT-175B).
Кроме того, очевидно, что это ничего не говорит о Deepseek R1.
Выводы:
- Deepseek каждый раз в 2 раза повышал бюджет.
- Deepseek v3 должен бы стоить в 2-3 раза дороже v2, но стоит столько же (в пересчёте на 1T токенов) из-за хороших инженеров.
- Llama гораздо дороже, но и гораздо древнее.
- Llama 3 70B, 15T токенов, 6.4M H100 часов, примерно 16M$. Источник.
- Deepseek 67B, 2T токенов, 600K H800 часов, примерно 1.2M$. Источник 1, источник 2.
- Deepseek v2 236B MoE, 21B active, 8T токенов, 1.4M H800 часов, примерно 2.8M$. Источник.
- Deepseek v3 671B MoE, 37B active, 15T токенов, 2.8M H800 часов, примерно 5.6M$. Источник.
H800 оценена как 2$ в час, H100 как 2.5$ в час.
Качество моделей не сравнивается, цель была не в этом.
Кроме того, в этом сравнении нет утилизации карточек (спасибо Саше за этот комментарий).
(И второму Саше за указание на 8T токенов у v2).
Кроме того, очевидно, что это только одна попытка, в плохих случаях их может быть 10+ (см. например 13 попыток древнейшего OPT-175B).
Кроме того, очевидно, что это ничего не говорит о Deepseek R1.
Выводы:
- Deepseek каждый раз в 2 раза повышал бюджет.
- Deepseek v3 должен бы стоить в 2-3 раза дороже v2, но стоит столько же (в пересчёте на 1T токенов) из-за хороших инженеров.
- Llama гораздо дороже, но и гораздо древнее.
Forwarded from Свидетели сингулярности (Ilia Udalov)
🥁🥁 🥁
А вот и наш первый выпуск!
Говорим Про LLM c Ильёй Гусевым, затронем темы:
- что сейчас есть интересного из моделей на русском;
- как померить что модель крутая и как все хакают эти метрики;
- доисторические технологии, как генерировали тексты до 2020х годов;
- можно ли запустить ламу на чайнике, холодильнике и другой кухонной утвари;
- когда будет AGI и пора ли подыскивать другую работу;
- кого слушать и куда смотреть, чтобы ничего не пропустить.
Также подписывайтесь на канал Ильи, он прикольный: @senior_augur
N.B.
Мы записывали выпуск до шумихи с DeepSeek, но такое пропустить нельзя, поэтому у нас скоро выйдет бонус эпизод.
И на этом с LLM закончим, честно-честно 😉
Spotify | Яндекс.Музыка
А вот и наш первый выпуск!
Говорим Про LLM c Ильёй Гусевым, затронем темы:
- что сейчас есть интересного из моделей на русском;
- как померить что модель крутая и как все хакают эти метрики;
- доисторические технологии, как генерировали тексты до 2020х годов;
- можно ли запустить ламу на чайнике, холодильнике и другой кухонной утвари;
- когда будет AGI и пора ли подыскивать другую работу;
- кого слушать и куда смотреть, чтобы ничего не пропустить.
Также подписывайтесь на канал Ильи, он прикольный: @senior_augur
N.B.
Мы записывали выпуск до шумихи с DeepSeek, но такое пропустить нельзя, поэтому у нас скоро выйдет бонус эпизод.
И на этом с LLM закончим, честно-честно 😉
Spotify | Яндекс.Музыка
Forwarded from Al Talent Hub
5 февраля в 19:00 собираем ключевых независимых разработчиков опенсорсных русскоязычных LLM и говорим о том, что волнует AI-сообщество прямо сейчас:
Спикеры:
Приходи! Без тебя – не то
#OpenTalks
#AITalentHub #ITMO #NapoleonIT
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Лентач
Please open Telegram to view this post
VIEW IN TELEGRAM
Недавно я обратил внимание на один гениальный ход DeepSeek.
Про то, что при обучении модель училась предсказывать сразу несколько токенов, знают примерно все.
Про то, что для этого использовались не просто независимые головы (как в Медузе), а целые трансформерные слои, на вход которых подавались в том числе проекции с предыдущих шагов, знают все, кто читал статью. Там же написано, что они переиспользуют эти мини-трансформеры (MTP-модули) для инференса.
А вы знаете, сколько MTP модулей было выложено вместе с моделью?
- ОДИН.
Источник.
Таким образом, для себя они, вероятно, оставили 4-5 MTP-модулей, а наружу выложили только 1. То есть, они могут инферить модель в 2-3 раза быстрее, чем любые другие провайдеры. Вы конечно можете дообучить больше MTP модулей или вообще перейти на Медузу, но это потребует нетривиальных усилий. В итоге модель-то открытая, но конкуренты всё равно в дураках.
Про то, что при обучении модель училась предсказывать сразу несколько токенов, знают примерно все.
Про то, что для этого использовались не просто независимые головы (как в Медузе), а целые трансформерные слои, на вход которых подавались в том числе проекции с предыдущих шагов, знают все, кто читал статью. Там же написано, что они переиспользуют эти мини-трансформеры (MTP-модули) для инференса.
А вы знаете, сколько MTP модулей было выложено вместе с моделью?
- ОДИН.
Источник.
Таким образом, для себя они, вероятно, оставили 4-5 MTP-модулей, а наружу выложили только 1. То есть, они могут инферить модель в 2-3 раза быстрее, чем любые другие провайдеры. Вы конечно можете дообучить больше MTP модулей или вообще перейти на Медузу, но это потребует нетривиальных усилий. В итоге модель-то открытая, но конкуренты всё равно в дураках.
Forwarded from Vikhr models
⚡️ QVikhr-2.5-1.5B-Instruct-SMPO — Наша новая компактная llm теперь еще и с RLHF этапом. За счет RLHF получили качественный прирост по метрикам, а за счет размера гонять можно хоть на тостере!
🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO
🔗 GGUF: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO_GGUF
🔗 Презентация Preference Optimization: https://docs.google.com/presentation/d/1WDzavFCtCeF8A9i0-hyyE9e8N1f_ieijyGiS4N0sAGQ/edit?usp=sharing
Коллектив авторов: @LakoMoorDev @nlpwanderer
🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO
🔗 GGUF: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO_GGUF
🔗 Презентация Preference Optimization: https://docs.google.com/presentation/d/1WDzavFCtCeF8A9i0-hyyE9e8N1f_ieijyGiS4N0sAGQ/edit?usp=sharing
Коллектив авторов: @LakoMoorDev @nlpwanderer
Forwarded from Love. Death. Transformers.
Ладно уже не смешно.
Hf выложили свой deepresearch на o1, c полностью открытым кодом, на Gaia выдает 55%(против 67% у openai)
Блог: huggingface.co/blog/open-deep-research
Hf выложили свой deepresearch на o1, c полностью открытым кодом, на Gaia выдает 55%(против 67% у openai)
Блог: huggingface.co/blog/open-deep-research
huggingface.co
Open-source DeepResearch – Freeing our search agents
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Тут вот какое дело...
Пост — реклама smolagents. В реальности дела мягко говоря обстоят не так хорошо. Начиная со стоимости вот этого всего (легко тратится до 10$ на один вопрос), заканчивая длинным хвостом задач, которые вообще нормально агентами не решаются, хотя люди их решат за 5-10 минут. Я, конечно, экспериментировал со своими инструментами, а не с чужими, но инструменты из поста написаны скорее хуже, а не лучше.
Самая непобедимая проблема для меня пока — заставить агента читать все страницы выдачи, а не только первые 2-3. И желательно только в тех случаях, где это реально нужно.
Пост — реклама smolagents. В реальности дела мягко говоря обстоят не так хорошо. Начиная со стоимости вот этого всего (легко тратится до 10$ на один вопрос), заканчивая длинным хвостом задач, которые вообще нормально агентами не решаются, хотя люди их решат за 5-10 минут. Я, конечно, экспериментировал со своими инструментами, а не с чужими, но инструменты из поста написаны скорее хуже, а не лучше.
Самая непобедимая проблема для меня пока — заставить агента читать все страницы выдачи, а не только первые 2-3. И желательно только в тех случаях, где это реально нужно.
Читаю я эссе Уоррена Уивера 1949 года о машинном переводе (не спрашивайте, как так получилось), и что я вижу? Word2vec/MLM.
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Классный новый алгоритм на подходе:
Даем на вход картинку, аудио и модель сама оживляет персонажа
Кода пока нет, сайт проекта тут:
https://omnihuman-lab.github.io/
Жду не дождусь чтобы исторические фото помучать
Даем на вход картинку, аудио и модель сама оживляет персонажа
Кода пока нет, сайт проекта тут:
https://omnihuman-lab.github.io/
Жду не дождусь чтобы исторические фото помучать
Бенч 10/10, спасибо Игорю.
http://platinum-bench.csail.mit.edu/
Люди собрали чуть-чуть простых задач с мега-супер-пупер правильными ответами, и оценивают стабильность моделек.
В такой постановке даже древнющий Navigate из BigBench'а внезапно становится хорошо разделяющей задачей.
Статью можно не читать, можно просто поштырить в ошибки.
http://platinum-bench.csail.mit.edu/
Люди собрали чуть-чуть простых задач с мега-супер-пупер правильными ответами, и оценивают стабильность моделек.
В такой постановке даже древнющий Navigate из BigBench'а внезапно становится хорошо разделяющей задачей.
Статью можно не читать, можно просто поштырить в ошибки.
Призываю всех пойти погенерить и пооценивать мемы в @AIMemeArenaBot.
За себя голосовать не призываю, там всё равно метки скрытые, но в свою систему верю.
Голосуй, или я проиграю😁
За себя голосовать не призываю, там всё равно метки скрытые, но в свою систему верю.
Голосуй, или я проиграю
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Мем, сгенерированный по предыдущему сообщению.
Forwarded from Vikhr models
⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO этапом. За счет GRPO это теперь первая reasoning модель на русском языке с честным RL .
🔗 Карточка модели:
https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r
🔗 Карточка модели:
https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r
Статьи-близнецы, которые вышли с разницей в неделю
s1: Simple test-time scaling
Статья: https://arxiv.org/abs/2501.19393
Код: https://github.com/simplescaling/s1
SFT на 1000 примерах про математику и программирование с цепочками рассуждений поверх Qwen 2.5 32B достаточно для жёсткого буста модели на AIME и GPQA Diamond.
Примеры отбирали из NuminaMATH, AIME прошлых лет, OlympicArena, OmniMath, AGIEval и двух своих датасетов (из экзамена на поступление на PhD в Стэнфорд и из собесов для квантов). Отбирали по качеству, сложности, и из разных категорий. Из 1000 примеров: 109 на геометрию, 98 на теорию чисел, 75 на комбинаторику, 41 на биологию. Остальное раскидано по разным другим областям математики и естественных наук (в основном физики). Ответы и цепочки спёрли у старшого брата, Gemini Flash Thinking, а позже у R1. Утечки тест сетов проверяли n-граммами.
Ещё одна прикольная штука: для увеличения длины генерации токен конца рассуждений принудительно заменяется на "Wait", а для сокращения принудительно вставляется "Final Answer:”. И вот такое принудительное увеличение длины совсем чуть-чуть растит метрики. В основную табличку интервалы, как водится, не завезли, прирост копеечный. Как контроль длины норм, но роста метрик по сравнению со стандартной генерацией там особо не видно.
В итоге по метрикам всё гораздо лучше оригинального Квена, на уровне o1-preview и QwQ. Код реально существует, включая пайплайн отбора данных.
LIMO: Less is More for Reasoning
Статья: https://arxiv.org/abs/2502.03387
Код: https://github.com/GAIR-NLP/LIMO
Всё то же самое! Тоже SFT, тоже почти 1к примеров, тоже тюн Qwen 2.5 32B, почти те же датасеты😂
Основное отличие от s1 — от текста хочется блевать. 13 страниц основного текста! Первые 5 страниц просто ни о чём, как будто их языковая модель генерировала, и есть у меня ощущение, что даже сами авторы их не читали.
Примеры отбирали из NuminaMATH, AIME прошлых лет, MATH и каких-то других источников. Утверждается, что откуда-то набрались десятки миллионов задач🤔
Процесс отбора примерно такой же как в s1, но ответы и цепочки спёрты либо из оригинальных решений, либо из ответов R1. Утверждается, что ответы отсматривались авторами вручную🤣
На AIME24 они чуть хуже s1, на MATH500 повыше, но они на MATH и учились...
Короче, это китайская подделка s1. Не удивлюсь, если они за эту неделю с выхода s1 статью и написали. Удачи найти подробности отбора примеров в коде: их там нет. Более того, в их табличке в README у s1 нарисованы заниженные цифры😁
Общий вывод:
Так-то круто, что SFT работает, и в предобучении уже всё на самом деле есть. s1 выглядит вполне воспроизводимой, хоть бы и для русского, рекомендую. Китайскую подделку не рекомендую.
s1: Simple test-time scaling
Статья: https://arxiv.org/abs/2501.19393
Код: https://github.com/simplescaling/s1
SFT на 1000 примерах про математику и программирование с цепочками рассуждений поверх Qwen 2.5 32B достаточно для жёсткого буста модели на AIME и GPQA Diamond.
Примеры отбирали из NuminaMATH, AIME прошлых лет, OlympicArena, OmniMath, AGIEval и двух своих датасетов (из экзамена на поступление на PhD в Стэнфорд и из собесов для квантов). Отбирали по качеству, сложности, и из разных категорий. Из 1000 примеров: 109 на геометрию, 98 на теорию чисел, 75 на комбинаторику, 41 на биологию. Остальное раскидано по разным другим областям математики и естественных наук (в основном физики). Ответы и цепочки спёрли у старшого брата, Gemini Flash Thinking, а позже у R1. Утечки тест сетов проверяли n-граммами.
Ещё одна прикольная штука: для увеличения длины генерации токен конца рассуждений принудительно заменяется на "Wait", а для сокращения принудительно вставляется "Final Answer:”. И вот такое принудительное увеличение длины совсем чуть-чуть растит метрики. В основную табличку интервалы, как водится, не завезли, прирост копеечный. Как контроль длины норм, но роста метрик по сравнению со стандартной генерацией там особо не видно.
В итоге по метрикам всё гораздо лучше оригинального Квена, на уровне o1-preview и QwQ. Код реально существует, включая пайплайн отбора данных.
LIMO: Less is More for Reasoning
Статья: https://arxiv.org/abs/2502.03387
Код: https://github.com/GAIR-NLP/LIMO
Всё то же самое! Тоже SFT, тоже почти 1к примеров, тоже тюн Qwen 2.5 32B, почти те же датасеты
Основное отличие от s1 — от текста хочется блевать. 13 страниц основного текста! Первые 5 страниц просто ни о чём, как будто их языковая модель генерировала, и есть у меня ощущение, что даже сами авторы их не читали.
Примеры отбирали из NuminaMATH, AIME прошлых лет, MATH и каких-то других источников. Утверждается, что откуда-то набрались десятки миллионов задач
Процесс отбора примерно такой же как в s1, но ответы и цепочки спёрты либо из оригинальных решений, либо из ответов R1. Утверждается, что ответы отсматривались авторами вручную
На AIME24 они чуть хуже s1, на MATH500 повыше, но они на MATH и учились...
Короче, это китайская подделка s1. Не удивлюсь, если они за эту неделю с выхода s1 статью и написали. Удачи найти подробности отбора примеров в коде: их там нет. Более того, в их табличке в README у s1 нарисованы заниженные цифры
Общий вывод:
Так-то круто, что SFT работает, и в предобучении уже всё на самом деле есть. s1 выглядит вполне воспроизводимой, хоть бы и для русского, рекомендую. Китайскую подделку не рекомендую.
Please open Telegram to view this post
VIEW IN TELEGRAM
И вдогонку микро-пост про источники.
Я теперь вместе с Daily Papers и всякими каналами читаю alphaxiv.org, там все хайповые вещи есть, и какое-то обсуждение статей. Хайповые по делу или нет — это уже другой вопрос. За рекламу сайта мне не платили (а могли бы).
Я теперь вместе с Daily Papers и всякими каналами читаю alphaxiv.org, там все хайповые вещи есть, и какое-то обсуждение статей. Хайповые по делу или нет — это уже другой вопрос. За рекламу сайта мне не платили (а могли бы).
Запись эфира от 5 февраля со всеми ребятами: мной, Сашей (Вихрь), Мишей (RuAdapt) и Гришей (GigaChat).
https://www.youtube.com/watch?v=MvRSroMG5Y0
https://www.youtube.com/watch?v=MvRSroMG5Y0
YouTube
Лидеры Open source LLM на русском, в одном эфире – Open Talks Special
◼️ Open Talks – Открытый митап с AI-экспертами, подписывайся на нас в Telegram, чтобы смотреть Open Talks в прямом эфире и задавать вопросы экспертам: http://www.group-telegram.com/aitalenthubnews
◼️ AI Talent Hub: https://ai.itmo.ru/?utm_source=youtube&utm_medium=ot_sp…
◼️ AI Talent Hub: https://ai.itmo.ru/?utm_source=youtube&utm_medium=ot_sp…
Я ещё иногда на работе работу работаю.
Пост про использование Медузы, про нашу коллаборацию с AWS ProServe: https://aws.amazon.com/blogs/machine-learning/achieve-2x-speed-up-in-llm-inference-with-medusa-1-on-amazon-sagemaker-ai/
Пост про использование Медузы, про нашу коллаборацию с AWS ProServe: https://aws.amazon.com/blogs/machine-learning/achieve-2x-speed-up-in-llm-inference-with-medusa-1-on-amazon-sagemaker-ai/
Amazon
Achieve ~2x speed-up in LLM inference with Medusa-1 on Amazon SageMaker AI | Amazon Web Services
Researchers developed Medusa, a framework to speed up LLM inference by adding extra heads to predict multiple tokens simultaneously. This post demonstrates how to use Medusa-1, the first version of the framework, to speed up an LLM by fine-tuning it on Amazon…
Ура! закончился конкурс генерации мемов, AI Meme Arena!
Я занял второе место и заработал 2000$, как в общем-то и предполагал на протяжении всей последней недели.
Изначальное решение я сбацал на коленке за полтора часа, и с точки зрения кода оно менялось не очень сильно.
Краткое описание решения
- Memegen для наложения подписей на картинку (да, я настолько ленив).
- Видео-шаблоны только с одним форматом подписей: текст в чёрной части сверху.
- Claude 3.5 Sonnet 2024-10-22 в качестве модели.
- Случайный выбор 4 видео-шаблонов и 2 картиночных шаблонов в качестве кандидатов.
- Для каждого шаблона 2 примера заполнения подписей, плюс текстовое описание.
- Модель генерирует 3 варианта мемов, в том же запросе выбирает наилучший вариант с объяснением.
- В течение всего соревнования я отсекал шаблоны с плохими винрейтами и доливал новые. В конце осталось около 50 шаблонов.
- Основные источники шаблонов: стандартная библиотека Memegen, канал @membeztexta и шаблоны других участников.
Почему не первое место?
Во-первых, изначальная версия системы была очень низко, где-то на 6-7 месте, и собрала кучу проигранных битв, что критично в текущей системе голосования. Было это связано с форматом выхода: я генерировал напрямую URL для Memegen, что было ошибкой.
Во-вторых, система на первом месте отбирала шаблон по текстовым эмбеддингам, у меня же это тупо random.choice, который иногда возвращает не очень подходящий набор шаблонов. Имхо, вот это было не очень критично, потому что часто так было только смешнее, Соннету приходилось изворачиваться.
С точки зрения накруток всё по-моему было не очень чисто, но значительную часть в конце убрали.
Было весело, рад за @hikonon, который заслуженно занял первое место.
Код: https://github.com/IlyaGusev/memetron3000
Демку на неделе добавлю в бота.
Я занял второе место и заработал 2000$, как в общем-то и предполагал на протяжении всей последней недели.
Изначальное решение я сбацал на коленке за полтора часа, и с точки зрения кода оно менялось не очень сильно.
Краткое описание решения
- Memegen для наложения подписей на картинку (да, я настолько ленив).
- Видео-шаблоны только с одним форматом подписей: текст в чёрной части сверху.
- Claude 3.5 Sonnet 2024-10-22 в качестве модели.
- Случайный выбор 4 видео-шаблонов и 2 картиночных шаблонов в качестве кандидатов.
- Для каждого шаблона 2 примера заполнения подписей, плюс текстовое описание.
- Модель генерирует 3 варианта мемов, в том же запросе выбирает наилучший вариант с объяснением.
- В течение всего соревнования я отсекал шаблоны с плохими винрейтами и доливал новые. В конце осталось около 50 шаблонов.
- Основные источники шаблонов: стандартная библиотека Memegen, канал @membeztexta и шаблоны других участников.
Почему не первое место?
Во-первых, изначальная версия системы была очень низко, где-то на 6-7 месте, и собрала кучу проигранных битв, что критично в текущей системе голосования. Было это связано с форматом выхода: я генерировал напрямую URL для Memegen, что было ошибкой.
Во-вторых, система на первом месте отбирала шаблон по текстовым эмбеддингам, у меня же это тупо random.choice, который иногда возвращает не очень подходящий набор шаблонов. Имхо, вот это было не очень критично, потому что часто так было только смешнее, Соннету приходилось изворачиваться.
С точки зрения накруток всё по-моему было не очень чисто, но значительную часть в конце убрали.
Было весело, рад за @hikonon, который заслуженно занял первое место.
Код: https://github.com/IlyaGusev/memetron3000
Демку на неделе добавлю в бота.