Forwarded from Кононюковщина
Есть ли у ИИ чувство юмора? 😁
Это пытаются выяснить разработчики AI Meme Arena - проекта, в котором разные агенты пытаются сгенерировать самый смешной мем.
Работает как и все llm арены: пользователь вводит тему для шутки, 2 случайных AI-агента делают смешную картинку, юзер выбирает самую смешную, далее строится ELO-рейтинг агентов. Лучшие 3 агента получат денежный приз.
Арену сейчас сильно колбасит, агенты улетают с первого до последнего места за считанные часы (разработчики обещают исправить это).
Я тоже решил учавстовать в сорвевновании и разработал агента "Humorithm" на основе Claude 3.5. Любой человек может добавить своё AI-решение на арену. Для этого нужно сделать публичное API по документации. Требования к агентам: <15 секунд на картинку, 85% уровень доступа (SLA).
Сгенерировать мем
@hikonon
Это пытаются выяснить разработчики AI Meme Arena - проекта, в котором разные агенты пытаются сгенерировать самый смешной мем.
Работает как и все llm арены: пользователь вводит тему для шутки, 2 случайных AI-агента делают смешную картинку, юзер выбирает самую смешную, далее строится ELO-рейтинг агентов. Лучшие 3 агента получат денежный приз.
Арену сейчас сильно колбасит, агенты улетают с первого до последнего места за считанные часы (разработчики обещают исправить это).
Я тоже решил учавстовать в сорвевновании и разработал агента "Humorithm" на основе Claude 3.5. Любой человек может добавить своё AI-решение на арену. Для этого нужно сделать публичное API по документации. Требования к агентам: <15 секунд на картинку, 85% уровень доступа (SLA).
Сгенерировать мем
@hikonon
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Наконец-то пришёл отказ на ICLR, можно теперь на ARR податься.
Мета-ревью примечательно тем, что единственная ссылка в нём — на работу из августа 2024 года, а сабмит моей статьи — из сентября. Согласно официальным гайдлайнам ICLR работы, выпущенные за 4 месяца до сабмита, считаются "параллельным", и я так-то не обязан с ними сравниваться. Но это мелочи, конечно, по сравнению со всем остальным процессом.
Залил на архив новую версию (которая в два раза больше старой): https://arxiv.org/abs/2409.06820
Мета-ревью примечательно тем, что единственная ссылка в нём — на работу из августа 2024 года, а сабмит моей статьи — из сентября. Согласно официальным гайдлайнам ICLR работы, выпущенные за 4 месяца до сабмита, считаются "параллельным", и я так-то не обязан с ними сравниваться. Но это мелочи, конечно, по сравнению со всем остальным процессом.
Залил на архив новую версию (которая в два раза больше старой): https://arxiv.org/abs/2409.06820
Please open Telegram to view this post
VIEW IN TELEGRAM
Один из картиночных вопросов (которые всё равно даже на дашборде не отобразились, поэтому ими можно делиться) был вот такой. Задача — перевести запрос.
Спёр я её у жены, которая делала её для своих проектов.
Это упрощенная версия 278 задачи отсюда. Я тогда ещё нашёл оригинал, поэтичическую стеллу Тутмоса III, и её перевод на английский.
Спёр я её у жены, которая делала её для своих проектов.
Это упрощенная версия 278 задачи отсюда. Я тогда ещё нашёл оригинал, поэтичическую стеллу Тутмоса III, и её перевод на английский.
Forwarded from gonzo-обзоры ML статей
В продолжение темы, Jay Alammar, у которого были прекрасные визуальные объяснения про работу трансформера, в сто раз лучшие оригинальной статьи, выпустил только что иллюстрированный DeepSeek-R1
https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
newsletter.languagemodels.co
The Illustrated DeepSeek-R1
A recipe for reasoning LLMs
О стоимости Deepseek v3
- Llama 3 70B, 15T токенов, 6.4M H100 часов, примерно 16M$. Источник.
- Deepseek 67B, 2T токенов, 600K H800 часов, примерно 1.2M$. Источник 1, источник 2.
- Deepseek v2 236B MoE, 21B active, 8T токенов, 1.4M H800 часов, примерно 2.8M$. Источник.
- Deepseek v3 671B MoE, 37B active, 15T токенов, 2.8M H800 часов, примерно 5.6M$. Источник.
H800 оценена как 2$ в час, H100 как 2.5$ в час.
Качество моделей не сравнивается, цель была не в этом.
Кроме того, в этом сравнении нет утилизации карточек (спасибо Саше за этот комментарий).
(И второму Саше за указание на 8T токенов у v2).
Кроме того, очевидно, что это только одна попытка, в плохих случаях их может быть 10+ (см. например 13 попыток древнейшего OPT-175B).
Кроме того, очевидно, что это ничего не говорит о Deepseek R1.
Выводы:
- Deepseek каждый раз в 2 раза повышал бюджет.
- Deepseek v3 должен бы стоить в 2-3 раза дороже v2, но стоит столько же (в пересчёте на 1T токенов) из-за хороших инженеров.
- Llama гораздо дороже, но и гораздо древнее.
- Llama 3 70B, 15T токенов, 6.4M H100 часов, примерно 16M$. Источник.
- Deepseek 67B, 2T токенов, 600K H800 часов, примерно 1.2M$. Источник 1, источник 2.
- Deepseek v2 236B MoE, 21B active, 8T токенов, 1.4M H800 часов, примерно 2.8M$. Источник.
- Deepseek v3 671B MoE, 37B active, 15T токенов, 2.8M H800 часов, примерно 5.6M$. Источник.
H800 оценена как 2$ в час, H100 как 2.5$ в час.
Качество моделей не сравнивается, цель была не в этом.
Кроме того, в этом сравнении нет утилизации карточек (спасибо Саше за этот комментарий).
(И второму Саше за указание на 8T токенов у v2).
Кроме того, очевидно, что это только одна попытка, в плохих случаях их может быть 10+ (см. например 13 попыток древнейшего OPT-175B).
Кроме того, очевидно, что это ничего не говорит о Deepseek R1.
Выводы:
- Deepseek каждый раз в 2 раза повышал бюджет.
- Deepseek v3 должен бы стоить в 2-3 раза дороже v2, но стоит столько же (в пересчёте на 1T токенов) из-за хороших инженеров.
- Llama гораздо дороже, но и гораздо древнее.
Forwarded from Свидетели сингулярности (Ilia Udalov)
🥁🥁 🥁
А вот и наш первый выпуск!
Говорим Про LLM c Ильёй Гусевым, затронем темы:
- что сейчас есть интересного из моделей на русском;
- как померить что модель крутая и как все хакают эти метрики;
- доисторические технологии, как генерировали тексты до 2020х годов;
- можно ли запустить ламу на чайнике, холодильнике и другой кухонной утвари;
- когда будет AGI и пора ли подыскивать другую работу;
- кого слушать и куда смотреть, чтобы ничего не пропустить.
Также подписывайтесь на канал Ильи, он прикольный: @senior_augur
N.B.
Мы записывали выпуск до шумихи с DeepSeek, но такое пропустить нельзя, поэтому у нас скоро выйдет бонус эпизод.
И на этом с LLM закончим, честно-честно 😉
Spotify | Яндекс.Музыка
А вот и наш первый выпуск!
Говорим Про LLM c Ильёй Гусевым, затронем темы:
- что сейчас есть интересного из моделей на русском;
- как померить что модель крутая и как все хакают эти метрики;
- доисторические технологии, как генерировали тексты до 2020х годов;
- можно ли запустить ламу на чайнике, холодильнике и другой кухонной утвари;
- когда будет AGI и пора ли подыскивать другую работу;
- кого слушать и куда смотреть, чтобы ничего не пропустить.
Также подписывайтесь на канал Ильи, он прикольный: @senior_augur
N.B.
Мы записывали выпуск до шумихи с DeepSeek, но такое пропустить нельзя, поэтому у нас скоро выйдет бонус эпизод.
И на этом с LLM закончим, честно-честно 😉
Spotify | Яндекс.Музыка
Forwarded from Al Talent Hub
5 февраля в 19:00 собираем ключевых независимых разработчиков опенсорсных русскоязычных LLM и говорим о том, что волнует AI-сообщество прямо сейчас:
Спикеры:
Приходи! Без тебя – не то
#OpenTalks
#AITalentHub #ITMO #NapoleonIT
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Лентач
Please open Telegram to view this post
VIEW IN TELEGRAM
Недавно я обратил внимание на один гениальный ход DeepSeek.
Про то, что при обучении модель училась предсказывать сразу несколько токенов, знают примерно все.
Про то, что для этого использовались не просто независимые головы (как в Медузе), а целые трансформерные слои, на вход которых подавались в том числе проекции с предыдущих шагов, знают все, кто читал статью. Там же написано, что они переиспользуют эти мини-трансформеры (MTP-модули) для инференса.
А вы знаете, сколько MTP модулей было выложено вместе с моделью?
- ОДИН.
Источник.
Таким образом, для себя они, вероятно, оставили 4-5 MTP-модулей, а наружу выложили только 1. То есть, они могут инферить модель в 2-3 раза быстрее, чем любые другие провайдеры. Вы конечно можете дообучить больше MTP модулей или вообще перейти на Медузу, но это потребует нетривиальных усилий. В итоге модель-то открытая, но конкуренты всё равно в дураках.
Про то, что при обучении модель училась предсказывать сразу несколько токенов, знают примерно все.
Про то, что для этого использовались не просто независимые головы (как в Медузе), а целые трансформерные слои, на вход которых подавались в том числе проекции с предыдущих шагов, знают все, кто читал статью. Там же написано, что они переиспользуют эти мини-трансформеры (MTP-модули) для инференса.
А вы знаете, сколько MTP модулей было выложено вместе с моделью?
- ОДИН.
Источник.
Таким образом, для себя они, вероятно, оставили 4-5 MTP-модулей, а наружу выложили только 1. То есть, они могут инферить модель в 2-3 раза быстрее, чем любые другие провайдеры. Вы конечно можете дообучить больше MTP модулей или вообще перейти на Медузу, но это потребует нетривиальных усилий. В итоге модель-то открытая, но конкуренты всё равно в дураках.
Forwarded from Vikhr models
⚡️ QVikhr-2.5-1.5B-Instruct-SMPO — Наша новая компактная llm теперь еще и с RLHF этапом. За счет RLHF получили качественный прирост по метрикам, а за счет размера гонять можно хоть на тостере!
🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO
🔗 GGUF: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO_GGUF
🔗 Презентация Preference Optimization: https://docs.google.com/presentation/d/1WDzavFCtCeF8A9i0-hyyE9e8N1f_ieijyGiS4N0sAGQ/edit?usp=sharing
Коллектив авторов: @LakoMoorDev @nlpwanderer
🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO
🔗 GGUF: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO_GGUF
🔗 Презентация Preference Optimization: https://docs.google.com/presentation/d/1WDzavFCtCeF8A9i0-hyyE9e8N1f_ieijyGiS4N0sAGQ/edit?usp=sharing
Коллектив авторов: @LakoMoorDev @nlpwanderer
Forwarded from Love. Death. Transformers.
Ладно уже не смешно.
Hf выложили свой deepresearch на o1, c полностью открытым кодом, на Gaia выдает 55%(против 67% у openai)
Блог: huggingface.co/blog/open-deep-research
Hf выложили свой deepresearch на o1, c полностью открытым кодом, на Gaia выдает 55%(против 67% у openai)
Блог: huggingface.co/blog/open-deep-research
huggingface.co
Open-source DeepResearch – Freeing our search agents
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Тут вот какое дело...
Пост — реклама smolagents. В реальности дела мягко говоря обстоят не так хорошо. Начиная со стоимости вот этого всего (легко тратится до 10$ на один вопрос), заканчивая длинным хвостом задач, которые вообще нормально агентами не решаются, хотя люди их решат за 5-10 минут. Я, конечно, экспериментировал со своими инструментами, а не с чужими, но инструменты из поста написаны скорее хуже, а не лучше.
Самая непобедимая проблема для меня пока — заставить агента читать все страницы выдачи, а не только первые 2-3. И желательно только в тех случаях, где это реально нужно.
Пост — реклама smolagents. В реальности дела мягко говоря обстоят не так хорошо. Начиная со стоимости вот этого всего (легко тратится до 10$ на один вопрос), заканчивая длинным хвостом задач, которые вообще нормально агентами не решаются, хотя люди их решат за 5-10 минут. Я, конечно, экспериментировал со своими инструментами, а не с чужими, но инструменты из поста написаны скорее хуже, а не лучше.
Самая непобедимая проблема для меня пока — заставить агента читать все страницы выдачи, а не только первые 2-3. И желательно только в тех случаях, где это реально нужно.
Читаю я эссе Уоррена Уивера 1949 года о машинном переводе (не спрашивайте, как так получилось), и что я вижу? Word2vec/MLM.
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Классный новый алгоритм на подходе:
Даем на вход картинку, аудио и модель сама оживляет персонажа
Кода пока нет, сайт проекта тут:
https://omnihuman-lab.github.io/
Жду не дождусь чтобы исторические фото помучать
Даем на вход картинку, аудио и модель сама оживляет персонажа
Кода пока нет, сайт проекта тут:
https://omnihuman-lab.github.io/
Жду не дождусь чтобы исторические фото помучать
Бенч 10/10, спасибо Игорю.
http://platinum-bench.csail.mit.edu/
Люди собрали чуть-чуть простых задач с мега-супер-пупер правильными ответами, и оценивают стабильность моделек.
В такой постановке даже древнющий Navigate из BigBench'а внезапно становится хорошо разделяющей задачей.
Статью можно не читать, можно просто поштырить в ошибки.
http://platinum-bench.csail.mit.edu/
Люди собрали чуть-чуть простых задач с мега-супер-пупер правильными ответами, и оценивают стабильность моделек.
В такой постановке даже древнющий Navigate из BigBench'а внезапно становится хорошо разделяющей задачей.
Статью можно не читать, можно просто поштырить в ошибки.