Релиз Gemini 2.5 Flash
Gemini 2.5 Flash - это дистиллят из Gemini 2.5 Pro размером поменьше и побыстрее. По качеству она далеко ушла от 2.0 Flash, да даже от январского Flash Thinking отрыв гигантский. Но по сравнению с o4-mini модель меркнет — у OpenAI и модель сильнее, и нет странных ограничений, вроде невозможности подрубить и поиск и исполнение кода одновременно. Но у Gemini 2.5 Flash всё же есть что-то, чего нет у o4-mini — детальный бюджет на размышления в токенах, прямо как в Sonnet 3.7 (но в 2.5 Pro не добавили).
Попробовать модельку можно прямо сейчас в AI Studio. Если вы не гоняете тысячи запросов по API, то Gemini 2.5 Pro для вас доступна бесплатно, которая, хоть и уступает o3, остаётся лучшей бесплатной моделью. Даже по скорости она не сильно медленнее версии Flash — на моих промптах 2.5 Pro думает всего на 10-20% дольше, при сильно лучше ответах. Всё равно, пока ждёшь, можно погенерить что-то в Veo 2, которую недавно добавили и туда.
Но крышку в гвоздь гроба забивает цена — для обычного не-ризонинг режима она в полтора раза выше чем у 2.0. Но главная проблема в ризонинг режиме — за него просят $3.5 за миллион токенов, что немногим ниже чем $4.4 за o4-mini. Но даже эту разницу в цене может легко съесть разница в длине размышлений модели, но без тестов тут сложно судить. С уверенностью можно сказать одно — не будь таких драконовских цен на размышления, модель была бы сильно интереснее. Но все же для некоторых задач при вызовах по API, она может конкурировать с o4-mini.
@ai_newz
Gemini 2.5 Flash - это дистиллят из Gemini 2.5 Pro размером поменьше и побыстрее. По качеству она далеко ушла от 2.0 Flash, да даже от январского Flash Thinking отрыв гигантский. Но по сравнению с o4-mini модель меркнет — у OpenAI и модель сильнее, и нет странных ограничений, вроде невозможности подрубить и поиск и исполнение кода одновременно. Но у Gemini 2.5 Flash всё же есть что-то, чего нет у o4-mini — детальный бюджет на размышления в токенах, прямо как в Sonnet 3.7 (но в 2.5 Pro не добавили).
Попробовать модельку можно прямо сейчас в AI Studio. Если вы не гоняете тысячи запросов по API, то Gemini 2.5 Pro для вас доступна бесплатно, которая, хоть и уступает o3, остаётся лучшей бесплатной моделью. Даже по скорости она не сильно медленнее версии Flash — на моих промптах 2.5 Pro думает всего на 10-20% дольше, при сильно лучше ответах. Всё равно, пока ждёшь, можно погенерить что-то в Veo 2, которую недавно добавили и туда.
Но крышку в гвоздь гроба забивает цена — для обычного не-ризонинг режима она в полтора раза выше чем у 2.0. Но главная проблема в ризонинг режиме — за него просят $3.5 за миллион токенов, что немногим ниже чем $4.4 за o4-mini. Но даже эту разницу в цене может легко съесть разница в длине размышлений модели, но без тестов тут сложно судить. С уверенностью можно сказать одно — не будь таких драконовских цен на размышления, модель была бы сильно интереснее. Но все же для некоторых задач при вызовах по API, она может конкурировать с o4-mini.
@ai_newz
Нейродайджест за неделю (#65)
Жаркая неделя для ЛЛМ
LLM
- GPT-4.1 — превосходит 4o во всем, гораздо лучше следует промпту и 1М контекста по API.
- YandexGPT 5 с reasoning — открыли публичный бета‑тест, это первый ризонер на ру рынке.
- BitNet 1.58 — спустя год Microsoft выложили обещанные веса. Мощнейшая оптимизация, но есть нюансы.
- Anthropic Research Beta — все то же самое, но этот ещё и может пошерстить персональные данные.
- o3 и o4-mini — OpenAI снова показали, кто здесь батюшка: разнос бенчей, нативно используют тулы прямо во время ризонинга. Вот аналитика от Artificial Analysis.
- Gemini 2.5 Flash — дитя pro версии, значительно лучше предшественника 2.0, конкурент o4‑mini.
Генеративные модели
- Seedream 3.0 от ByteDance — Темная лошадка под именем Mogao, которая заняла первое место на Image Arena, оказалась детищем Тиктока. Данных нет, но она всё ещё делит топ с GPT‑4o.
Прочее
- Stargete под вопросом? — Про влияние Трампа на рынок AI.
> Читать дайджест #64
#дайджест
@ai_newz
Жаркая неделя для ЛЛМ
LLM
- GPT-4.1 — превосходит 4o во всем, гораздо лучше следует промпту и 1М контекста по API.
- YandexGPT 5 с reasoning — открыли публичный бета‑тест, это первый ризонер на ру рынке.
- BitNet 1.58 — спустя год Microsoft выложили обещанные веса. Мощнейшая оптимизация, но есть нюансы.
- Anthropic Research Beta — все то же самое, но этот ещё и может пошерстить персональные данные.
- o3 и o4-mini — OpenAI снова показали, кто здесь батюшка: разнос бенчей, нативно используют тулы прямо во время ризонинга. Вот аналитика от Artificial Analysis.
- Gemini 2.5 Flash — дитя pro версии, значительно лучше предшественника 2.0, конкурент o4‑mini.
Генеративные модели
- Seedream 3.0 от ByteDance — Темная лошадка под именем Mogao, которая заняла первое место на Image Arena, оказалась детищем Тиктока. Данных нет, но она всё ещё делит топ с GPT‑4o.
Прочее
- Stargete под вопросом? — Про влияние Трампа на рынок AI.
> Читать дайджест #64
#дайджест
@ai_newz
Ребята (ex-FAANG) собирают очень сильную команду в европейском стелс-стартапе, где строят модели для image/video generation с фокусом на генерацию людей. Обучают Foundation-модели с нуля, включая весь стек: от сбора и разметки датасетов масштаба миллиардов изображений до pre-training, post-training, fine-tuning и distillation.
Как Principal AI Engineer Вы сможете возглавить небольшую команду и влиять на все: от архитектуры и пайплайна до финального продукта.
Что ожидаем от кандидата:
• 5+ лет опыта в deep learning (LLM/GenAI).
• Опыт в тренировке диффузионных или flow-based моделей — огромный плюс.
• Большим плюсом будет:
• опыт распределенной тренировки large-scale моделей (multi-node / 128+ GPUs),
• опыт дизайна архитектур моделей,
• опыт ведения небольшой команды.
Команда 🔥
У ребят очень мощный состав, в том числе выходцы из DeepMind, Meta и др. Команда работает удалённо, преимущественно в EU time zone, с выездами на оффсайты.
Условия:
• Вилка: $150k – $300k.
• Дают опционы — настоящие, не фантики.
• Много свободы, крутая миссия, настоящий шанс построить что-то фундаментальное.
• Возможна релокация в Европу.
—
Также ребята ищут
Что предстоит делать:
• Разрабатывать highload Python-сервисы для ML-инференса.
• Оборачивать ML-инференс в API и разворачивать в прод с использованием Kubernetes/Docker.
• Настраивать очереди задач, логирование, мониторинг.
Идеальный кандидат:
• 5+ лет опыта в backend/system engineering, глубокий опыт в системном дизайне.
• Уверенное владение Python (или другим OOP-языком: Go, Rust, Java).
• Строил масштабируемые системы с нагрузкой и сложной логикой (распределённые очереди, сложные API, кэширование, пайплайны).
• Работал с ML-инфраструктурой или API над ML-инференсом — большой плюс.
• Умеет разбираться в сложных задачах и брать на себя ответственность, без микроменеджмента.
Мы предлагаем:
• Свободу в архитектурных решениях.
• Участие в создании масштабного продукта с нуля.
• Вилка: $100k – $200k и опционы.
• Возможна релокация в Европу.
По обеим вакансиям, чтобы податься нужно заполнить гугл форму, а затем написать в ЛС 👉 @genai_max.
В сообщении прикрепляйте LinkedIn/резюме/портфолио – всё, что может показать, насколько вы круты.
Я лично рекомендую этих ребят. Знаю команду и знаю, над чем работают — это будет огонь!
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Google Docs
Principal AI Engineer / Backend Engineer @ GenAI Stealth Startup
Job Application
Мини-отчет о моих свеже-опубликованных статьях. Этот год выдался очень продуктивным и мы сильно попотели нашим статьям очень повезло. В итоге у нас 3/3 статей принято на топовые конференции, и все три получили дополнительные awards. Я работал в основном над генерацией картинок и видео, и немного над ускорением LLM.
1️⃣ Autoregressive Distillation of Diffusion Transformers – CVPR25, Oral
TL;DR статьи: В обычной диффузии мы семплируем картинки по шагам, где следующий семпл зависит только от одного предыдущего. Мы же дисстилировали diffusion transformer в авторегрессионную архитектуру (как LLM), где используется вся история семплов,и это позволило существенно увеличить качество картинки при очень быстрой генерации в 3–4 шага. Получили SOTA в своем размере на Imagenet-256 и на text2image генерации в 3 шага (1.7B параметров).
Наша статья получила на CVPR высшую награду – Oral (это 18-минутная презентация со сцены, куда выбирают только самые лучшие работы), тогда как остальные статьи просто вывешивают постеры. Oral на CVPR получают < 1% из всех засабмиченых статей.
В этой статье я последний автор – это тот, кто вел и руководил проектом (по сути профессорская роль). Я придумал идею, выдал бейзлайн модели и расписал своему интерну Юнгмину (первому автору) какие эксперименты нужно провести, и какие цели мы преследуем в этом ресерче. А Юнгмин виртуозно все реализиовал, выдавив весь сок из модели на бенчмарках.
Мой интерн выложил даже код.
2️⃣ FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less Compute – CVPR25, Spotlight
TL;DR статьи: Ускорили diffusion transformer. Мы показали ,как запускать text2image и tex2video генерацию на 80%, 60% либо 40% компьюта с минимальными потерями в качестве. Достигается это за счет того что мы адаптивно меняем размер DiT патча во время инференса.
Тоже статейка с нашим интерном. Она тоже получила Award - Spotlight. Это презентация работы со сцены на 4 минут. Spotlight получили < 3% лучших статей из 13 тысяч засабмиченных.
3️⃣ Judge Decoding: Faster Speculative Sampling Requires Going Beyond Model Alignment – ICLR25, Oral
TL;DR статьи: Метод семплинга, которыйсильно ускоряет большие LLM. Мы ускорили Llama-3.1 405B в 9× раз с помощью использовани 8b модели в качестве драфта, практичесик без потерь в качестве.
Тут было много драмы, статья с двух ног влетела в топ-3 сильнейших статей по LLM на ICLR на основе среднего рейтинга ревьюеров (еще до вынесения решения.) Я уж думал будет железный Oral, но в итоге дали всего-лишь Spotlight. Мы подрасстроились, а через несколько недель пришло письмо, что статью все-таки выбрали на Oral (на ICLR это 12-минутная презентация). В этом году Oral получили только top 1.8% лучших статей! Интерн будет презентовать ее через пару дней в Сингапуре – я, к сожалению, до туда не долетел. Но, надеюсь, увидимся на CVPR в Нэшвилле!
#резерч #personal #конфа
@ai_newz
TL;DR статьи: В обычной диффузии мы семплируем картинки по шагам, где следующий семпл зависит только от одного предыдущего. Мы же дисстилировали diffusion transformer в авторегрессионную архитектуру (как LLM), где используется вся история семплов,и это позволило существенно увеличить качество картинки при очень быстрой генерации в 3–4 шага. Получили SOTA в своем размере на Imagenet-256 и на text2image генерации в 3 шага (1.7B параметров).
Наша статья получила на CVPR высшую награду – Oral (это 18-минутная презентация со сцены, куда выбирают только самые лучшие работы), тогда как остальные статьи просто вывешивают постеры. Oral на CVPR получают < 1% из всех засабмиченых статей.
В этой статье я последний автор – это тот, кто вел и руководил проектом (по сути профессорская роль). Я придумал идею, выдал бейзлайн модели и расписал своему интерну Юнгмину (первому автору) какие эксперименты нужно провести, и какие цели мы преследуем в этом ресерче. А Юнгмин виртуозно все реализиовал, выдавив весь сок из модели на бенчмарках.
Мой интерн выложил даже код.
TL;DR статьи: Ускорили diffusion transformer. Мы показали ,как запускать text2image и tex2video генерацию на 80%, 60% либо 40% компьюта с минимальными потерями в качестве. Достигается это за счет того что мы адаптивно меняем размер DiT патча во время инференса.
Тоже статейка с нашим интерном. Она тоже получила Award - Spotlight. Это презентация работы со сцены на 4 минут. Spotlight получили < 3% лучших статей из 13 тысяч засабмиченных.
TL;DR статьи: Метод семплинга, которыйсильно ускоряет большие LLM. Мы ускорили Llama-3.1 405B в 9× раз с помощью использовани 8b модели в качестве драфта, практичесик без потерь в качестве.
Тут было много драмы, статья с двух ног влетела в топ-3 сильнейших статей по LLM на ICLR на основе среднего рейтинга ревьюеров (еще до вынесения решения.) Я уж думал будет железный Oral, но в итоге дали всего-лишь Spotlight. Мы подрасстроились, а через несколько недель пришло письмо, что статью все-таки выбрали на Oral (на ICLR это 12-минутная презентация). В этом году Oral получили только top 1.8% лучших статей! Интерн будет презентовать ее через пару дней в Сингапуре – я, к сожалению, до туда не долетел. Но, надеюсь, увидимся на CVPR в Нэшвилле!
#резерч #personal #конфа
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
OpenAI запустили API для генерации картинок через GPT
Модель обозвали GPT-Image-1. Кроме резолюшена позволяют выбрать и качество — от low до high. Крайне вероятно что это как-то обозначает именно количество ризонинга, но мы очень мало чего знаем о внутреннем устройстве GPT чтобы судить об архитектуре.
Прайсинг может кусаться — цена на high quality может доходить до 25 центов за картинку. Для сравнения: за картинку из Imagen 3 или HiDream-I1-Dev просят 3 цента, за Recraft V3 — 4 цента. Но это не значит, что GPT не может конкурировать по цене — low режим стоит всего 1-2 цента за картинку, а medium в районе 7.
Как сильно отличаются картинки на разных уровнях качества — пока непонятно. В любом случае, GPT-Image-1 куда гибче конкурентов из-за своей архитектуры, то есть даже low качество может быть очень полезным. А за high качество, в отсутствии конкуренции, заламывать можно очень высокие цены. Появится конкуренция — цены заметно скинут, маржа у OpenAI такое позволяет, ждём Gemini 2.5 Pro Image Generation.
@ai_newz
Модель обозвали GPT-Image-1. Кроме резолюшена позволяют выбрать и качество — от low до high. Крайне вероятно что это как-то обозначает именно количество ризонинга, но мы очень мало чего знаем о внутреннем устройстве GPT чтобы судить об архитектуре.
Прайсинг может кусаться — цена на high quality может доходить до 25 центов за картинку. Для сравнения: за картинку из Imagen 3 или HiDream-I1-Dev просят 3 цента, за Recraft V3 — 4 цента. Но это не значит, что GPT не может конкурировать по цене — low режим стоит всего 1-2 цента за картинку, а medium в районе 7.
Как сильно отличаются картинки на разных уровнях качества — пока непонятно. В любом случае, GPT-Image-1 куда гибче конкурентов из-за своей архитектуры, то есть даже low качество может быть очень полезным. А за high качество, в отсутствии конкуренции, заламывать можно очень высокие цены. Появится конкуренция — цены заметно скинут, маржа у OpenAI такое позволяет, ждём Gemini 2.5 Pro Image Generation.
@ai_newz
OpenAI удвоили лимиты на o3 и o4-mini для Plus подписчик
Теперь у подписчиков есть 100 запросов к o3 к неделю, 100 запросов к o4-mini-high в день и целых 300 запросов в день к обычной o4-mini. В основном рад за лимиты o3, остальных моделей в принципе хватало.
А насколько вы чувствуете эти лимиты?
@ai_newz
Теперь у подписчиков есть 100 запросов к o3 к неделю, 100 запросов к o4-mini-high в день и целых 300 запросов в день к обычной o4-mini. В основном рад за лимиты o3, остальных моделей в принципе хватало.
А насколько вы чувствуете эти лимиты?
@ai_newz
Learn your reference model for real good alignment
Ресерчеры из T-Bank AI Research представили новый метод дообучения языковых моделей. Они адаптировали Trust Region (TR) к задаче алайнмента LLM. Ключевая идея — обновление референсной policy в процессе обучения вместо её фиксации.
Метод реализуется двумя способами. Мягкое обновление смешивает параметры текущей модели с референсной через коэффициент α. Жёсткое обновление заменяет референсную policy текущей через τ шагов. Оптимальные параметры: α ≈ 0,6, τ ≈ 512.
Тесты на Llama-3 показали превосходство TR-DPO, TR-IPO и TR-KTO над базовыми версиями. Прирост на бенчмарках AlpacaEval 2 и Arena-Hard достиг 10,8%. При равном отклонении от исходной политики TR-модели демонстрируют лучшие человеческие метрики.
Пейпер изменил устоявшийся взгляд на отклонение от изначальной политики. Проблема овероптимизации связана со смещением вероятностной массы к OOD-примерам. TR-метод противостоит этому явлению, требуя лишь настройки α и τ.
Подход улучшил показатели на 8-15% при суммаризации Reddit TL;DR с Pythia 6.9B. У метода есть и ограничения: большие τ неэффективны на малых датасетах, а тестирование через GPT-4 вызывает вопросы. Статью вчера представили на ICLR, куда поехала и одна из моих статей.
Пейпер
@ai_newz
Ресерчеры из T-Bank AI Research представили новый метод дообучения языковых моделей. Они адаптировали Trust Region (TR) к задаче алайнмента LLM. Ключевая идея — обновление референсной policy в процессе обучения вместо её фиксации.
Метод реализуется двумя способами. Мягкое обновление смешивает параметры текущей модели с референсной через коэффициент α. Жёсткое обновление заменяет референсную policy текущей через τ шагов. Оптимальные параметры: α ≈ 0,6, τ ≈ 512.
Тесты на Llama-3 показали превосходство TR-DPO, TR-IPO и TR-KTO над базовыми версиями. Прирост на бенчмарках AlpacaEval 2 и Arena-Hard достиг 10,8%. При равном отклонении от исходной политики TR-модели демонстрируют лучшие человеческие метрики.
Пейпер изменил устоявшийся взгляд на отклонение от изначальной политики. Проблема овероптимизации связана со смещением вероятностной массы к OOD-примерам. TR-метод противостоит этому явлению, требуя лишь настройки α и τ.
Подход улучшил показатели на 8-15% при суммаризации Reddit TL;DR с Pythia 6.9B. У метода есть и ограничения: большие τ неэффективны на малых датасетах, а тестирование через GPT-4 вызывает вопросы. Статью вчера представили на ICLR, куда поехала и одна из моих статей.
Пейпер
@ai_newz
OpenAI дали бесплатный доступ к облегчённому Deep Research
Новая lightweight модель, основанная на o4-mini, позволила дать доступ всем пользователям, даже бесплатным. Бенчмарк дали ровно один — по нему новая модель чуть хуже по качеству чем обычный Deep Research, но даёт заметное улучшение по сравнению с o4-mini, при этом отставая от o3. Но, в отличие от o3, lightweight модель даёт формат deep research, который местами очень нужен.
Доступ уже раскатывают, но доступно всё ещё не всем, дают пять запросов в месяц (до апдейта Plus подписчикам давали 10). Платных пользователей тоже не оставили в обиде — после того как истекают запросы к большому Deep Research, пользователей переключают на облегчённую версию. Это позволило увеличить лимиты с 10 до 25 на Plus и Team подписке и с 100 до 250 на Pro подписке, правда лимит теперь для обеих моделей.
Что-то много у них релизов на этой неделе, похоже OpenAI получили гигантскую поставку GPU
@ai_newz
Новая lightweight модель, основанная на o4-mini, позволила дать доступ всем пользователям, даже бесплатным. Бенчмарк дали ровно один — по нему новая модель чуть хуже по качеству чем обычный Deep Research, но даёт заметное улучшение по сравнению с o4-mini, при этом отставая от o3. Но, в отличие от o3, lightweight модель даёт формат deep research, который местами очень нужен.
Доступ уже раскатывают, но доступно всё ещё не всем, дают пять запросов в месяц (до апдейта Plus подписчикам давали 10). Платных пользователей тоже не оставили в обиде — после того как истекают запросы к большому Deep Research, пользователей переключают на облегчённую версию. Это позволило увеличить лимиты с 10 до 25 на Plus и Team подписке и с 100 до 250 на Pro подписке, правда лимит теперь для обеих моделей.
Что-то много у них релизов на этой неделе, похоже OpenAI получили гигантскую поставку GPU
@ai_newz
Media is too big
VIEW IN TELEGRAM
Runway GEN-4 References🔥 🔥 🔥
К конкурсу видео фильмов GEN-48 Runway раскатили новую старую фичу references, которую презентовали на релизе. Но она сделана для генерации картинок, а не сразу в видео, как это у Kling, там я уже писал почему это не удобно. По принципу работы очень похоже на IP-Adapter, но продвинутый. Принимает на вход до трех изображаний причем сохраняет все мельчайшие детали лица, не крутит их как 4o или Midjourney (последние обещают выпустить что-то похожее), но главная фишка в том что эта штука может и отходить от референса и генерить например фон или areal view бэкграунда (см видос). Штука очень полезная как для продуктовой съемки так и для фильмов.
Ну и на десерт, сейчас всем учасникам GEN-48 дают 300 ТЫСЯЧ кредитов, чтобы вы понимали тир unlimited дает чуть больше 2000 и режим медлинной очереди. Но эти кредиты доступны только следующие 48 часов.
UPD: Поезд ушёл(
Конечно всё нужно тестить, так что жду ваши примеры в комментариях.
Регистрация
@ai_newz
К конкурсу видео фильмов GEN-48 Runway раскатили новую старую фичу references, которую презентовали на релизе. Но она сделана для генерации картинок, а не сразу в видео, как это у Kling, там я уже писал почему это не удобно. По принципу работы очень похоже на IP-Adapter, но продвинутый. Принимает на вход до трех изображаний причем сохраняет все мельчайшие детали лица, не крутит их как 4o или Midjourney (последние обещают выпустить что-то похожее), но главная фишка в том что эта штука может и отходить от референса и генерить например фон или areal view бэкграунда (см видос). Штука очень полезная как для продуктовой съемки так и для фильмов.
UPD: Поезд ушёл(
Конечно всё нужно тестить, так что жду ваши примеры в комментариях.
Регистрация
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Нейродайджест за неделю (#66)
OpenAI
- API для Image Generation через GPT — на высоких настройках качества очень дорого, но конкурентов по функционалу нет.
- Удвоили лимиты для o3 и o4-mini — теперь можно почти не переходить на более слабые модели.
- Облегчённый Deep Research — доступен даже бесплатным пользователям, а платные получили расширенные лимиты.
Видео
- Референсы для Runway — увы, фича работает на генерации картинок, что даёт не очень хорошие результаты. Но лучше, чем ничего.
Статьи
- Мини-отчёт по моим статьям — три моих статьи приняли на топовые конфы: ICLR и CVPR.
- Learn your reference model for real good alignment — новый метод файнтюна, основанный на Trust Region.
> Читать дайджест #65
#дайджест
@ai_newz
OpenAI
- API для Image Generation через GPT — на высоких настройках качества очень дорого, но конкурентов по функционалу нет.
- Удвоили лимиты для o3 и o4-mini — теперь можно почти не переходить на более слабые модели.
- Облегчённый Deep Research — доступен даже бесплатным пользователям, а платные получили расширенные лимиты.
Видео
- Референсы для Runway — увы, фича работает на генерации картинок, что даёт не очень хорошие результаты. Но лучше, чем ничего.
Статьи
- Мини-отчёт по моим статьям — три моих статьи приняли на топовые конфы: ICLR и CVPR.
- Learn your reference model for real good alignment — новый метод файнтюна, основанный на Trust Region.
> Читать дайджест #65
#дайджест
@ai_newz
Видео дайджест
Я не знаю, какая муха укусила китайцев, но те всей толпой опять поражают количеством новых моделек. Я даже решил подождать, может ещё чё выйдет (так и вышло!)
Так что немного с опозданием, но вот небольшой обзор всех новых опенсорсных моделек и других плюшек.
SkyReels-V2
Новая (возможно SOTA) опен-сорс видео-модель с LLM и MoE под капотом. Две версии на 1.3B и 14B параметров (влезают в 15 и 52 ГБ VRAM). Разрешение до 720p. Из фишек — может генерить бесконечные фильмы при помощи Diffusion Forcing. Ещё есть SkyCaptioner-V1 для разметки видосов.
SkyReels • SkyCaptioner-V1
FramePack
Ещё одна SOTA (ну скажем для слабого железа) в видео-генерации. От разработчика ControlNet Forge и IC Light. Тоже генерит бесконечные видосы. Очень шустрая: 13B влезают в 6 ГБ VRAM. Тюнится батчами по 64 штуки на 8×A100/H100; на RTX 4090 генерит со скоростью ~2.5 сек/кадр. Из фишек: next-frame prediction с динамической степенью детализации, в зависимости от важности кадра для предсказания следующего. Anti-drifting sampling — двусторонняя выборка, которая как раз и позволяет генерить бесконечные видосы, избегая накопления ошибок.
FramePack
MAGI-1
Новая (возможно SOTA) в видео-генерации. Смотрится неплохо, из всех трёх, наверное, самый интересный (что там относительно Wan — не понятно). Выходит в двух версиях — 1.5B и 24B; для последнего вам потребуется 8×H100 (сравните с предыдущим). Тоже может в бесконечную генерацию. Кстати, генерит аж в 2560 × 1440, и самое интересное — это АВТОРЕГРЕССИОННАЯ модель. Есть подробнейший тех-репорт на 60 страниц.
Демо на Magi.sand.ai • GitHub — Magi-1
Все три модели вышли одновременно с громким заявлением, что они теперь SOTA в open-source видео-генерации. Ну что ж, будем смотреть, но здесь важно опираться не только на сырые генерации, но и понимание промпта, с чем у видеомоделек проблемы. Кстати, пока в этом лучший Kling — по крайней мере так кажется: он чуть ли не по таймкодам справляется.
Другие плюшки:
- Wan FLF 2.1 14B 720P — выкатили в опенсорс start+end frame.
GitHub • ComfyUI workflow
- Avatar FX — Hedraздорового человека фаната Character AI: теперь со своей виртуальной вайфу можно обмениваться кружочками почти как в телеграмм. Скоро и до видео-звонков дойдём. Больше никаких подробностей (опенсорса тоже) — не могу выбросить из головы мысли о «Бегущем по лезвию».
Character.ai
- Runway GEN-4 References — Это геймчейнджер (про него отдельный пост). К конкурсу GEN-48 Runway выкатил свою главную фичу — References︎, продвинутый и гибкий аналог IP-Adapter, который показывали на релизе.
На этом откланяюсь. В посте по одному видео от каждого генератора по очереди, а свои тесты закидывайте в комменты.
@ai_newz
Я не знаю, какая муха укусила китайцев, но те всей толпой опять поражают количеством новых моделек. Я даже решил подождать, может ещё чё выйдет (так и вышло!)
Так что немного с опозданием, но вот небольшой обзор всех новых опенсорсных моделек и других плюшек.
SkyReels-V2
Новая (возможно SOTA) опен-сорс видео-модель с LLM и MoE под капотом. Две версии на 1.3B и 14B параметров (влезают в 15 и 52 ГБ VRAM). Разрешение до 720p. Из фишек — может генерить бесконечные фильмы при помощи Diffusion Forcing. Ещё есть SkyCaptioner-V1 для разметки видосов.
SkyReels • SkyCaptioner-V1
FramePack
Ещё одна SOTA (ну скажем для слабого железа) в видео-генерации. От разработчика ControlNet Forge и IC Light. Тоже генерит бесконечные видосы. Очень шустрая: 13B влезают в 6 ГБ VRAM. Тюнится батчами по 64 штуки на 8×A100/H100; на RTX 4090 генерит со скоростью ~2.5 сек/кадр. Из фишек: next-frame prediction с динамической степенью детализации, в зависимости от важности кадра для предсказания следующего. Anti-drifting sampling — двусторонняя выборка, которая как раз и позволяет генерить бесконечные видосы, избегая накопления ошибок.
FramePack
MAGI-1
Новая (возможно SOTA) в видео-генерации. Смотрится неплохо, из всех трёх, наверное, самый интересный (что там относительно Wan — не понятно). Выходит в двух версиях — 1.5B и 24B; для последнего вам потребуется 8×H100 (сравните с предыдущим). Тоже может в бесконечную генерацию. Кстати, генерит аж в 2560 × 1440, и самое интересное — это АВТОРЕГРЕССИОННАЯ модель. Есть подробнейший тех-репорт на 60 страниц.
Демо на Magi.sand.ai • GitHub — Magi-1
Все три модели вышли одновременно с громким заявлением, что они теперь SOTA в open-source видео-генерации. Ну что ж, будем смотреть, но здесь важно опираться не только на сырые генерации, но и понимание промпта, с чем у видеомоделек проблемы. Кстати, пока в этом лучший Kling — по крайней мере так кажется: он чуть ли не по таймкодам справляется.
Другие плюшки:
- Wan FLF 2.1 14B 720P — выкатили в опенсорс start+end frame.
GitHub • ComfyUI workflow
- Avatar FX — Hedra
Character.ai
- Runway GEN-4 References — Это геймчейнджер (про него отдельный пост). К конкурсу GEN-48 Runway выкатил свою главную фичу — References︎, продвинутый и гибкий аналог IP-Adapter, который показывали на релизе.
На этом откланяюсь. В посте по одному видео от каждого генератора по очереди, а свои тесты закидывайте в комменты.
@ai_newz
Qwen 3 — открытые гибридные ризонеры
Идёт в размерах на все случаи жизни — от миниатюрной 0.6B, до огромного 235B-A22B MoE, которая обгоняет o3-mini и очень хорошо себя показывает против Gemini 2.5 Pro. Все модели — SOTA в своих весовых категориях. Особенно хочу отметить 30B-3A MoE модель — она бьёт вышедшую полтора месяца назад QwQ 32B, при в 10 раз меньшем количестве активных параметров. Она всё ещё слегка отстаёт от Qwen 3 32B, но в разы быстрее.
Все эти модели — гибридные, то есть они могут вести себя и как обычная модель и как ризонер, что сильно увеличивает гибкость использования - нужно только вставить тег😢 .
Модели тренировали на 36 триллионах токенов из 119 языков, том числе беларуского, русского и украинского. Если датасет для всех моделей одинаковый, то 0,6B тренировали на 60 тысяч токенов на один параметр (привет Шиншилле). Интересно как она себя будет вести при такой плотности. Веса выложили под Apache 2.0 — то есть делать с ними можно всё что угодно. Попробовать модели можно на qwen.ai.
Веса
Блогпост
@ai_newz
Идёт в размерах на все случаи жизни — от миниатюрной 0.6B, до огромного 235B-A22B MoE, которая обгоняет o3-mini и очень хорошо себя показывает против Gemini 2.5 Pro. Все модели — SOTA в своих весовых категориях. Особенно хочу отметить 30B-3A MoE модель — она бьёт вышедшую полтора месяца назад QwQ 32B, при в 10 раз меньшем количестве активных параметров. Она всё ещё слегка отстаёт от Qwen 3 32B, но в разы быстрее.
Все эти модели — гибридные, то есть они могут вести себя и как обычная модель и как ризонер, что сильно увеличивает гибкость использования - нужно только вставить тег
/no_think
. Такой фичей могут похвастаться ещё только Claude 3.7 и Gemini 2.5 Flash. А ещё разработчики заявляют, что у Qwen 3 сильно улучшили тул-юз, хотя данных бенчей особо не приводят, в любом случае мы всё и так узнаем через пару дней. Но есть и ложка дёгтя — модели не мультимодальные, а мультимодальные квены обычно релизятся через 3-4 месяца Модели тренировали на 36 триллионах токенов из 119 языков, том числе беларуского, русского и украинского. Если датасет для всех моделей одинаковый, то 0,6B тренировали на 60 тысяч токенов на один параметр (привет Шиншилле). Интересно как она себя будет вести при такой плотности. Веса выложили под Apache 2.0 — то есть делать с ними можно всё что угодно. Попробовать модели можно на qwen.ai.
Веса
Блогпост
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
Есть такой подреддит r/ChangeMyView: его правило простое - автор делится твёрдым убеждением, а комментаторы стараются аргументированно изменить его точку зрения; если у них выходит, автор награждает их ачивкой – «дельтой» (∆), что на сабе считается символом убедительности и интеллектуальной добросовестности
Благодаря жёсткой модерации и культуре вежливой полемики сабреддит давно служит «полигоном» для тренировки аргументации
Учёные провели секретный эксперимент на Reddit: они создали тринадцать аккаунтов-фейков с двумя координирующимися языковыми моделями на каждый аккаунт:
– Первая сканировала историю постов каждого оппонента, вычленяя вероятный возраст, пол, мировоззрение и эмоциональные триггеры
– Вторая, исходя из этого профиля, генерировала ответ, рассчитанный на максимальное изменение мнения
С ноября 2024 года боты оставили около полутора тысяч комментариев и получили более сотни «дельт» - свидетельств того, что авторы исходных постов действительно поменяли позицию. Для сравнения: среднестатистическому участнику сабреддита нужно в шесть раз больше попыток, чтобы добиться таких результатов
Эффективность объяснялась не только персонализацией - LLM «подстраивались» под стилистику Reddit, включая сленг («TL;DR» в начале, саркастические сноски в конце). При этом боты часто изобретали биографии: один позиционировал себя как «жертва изнасилования», другой - как «белая женщина в почти полностью чёрном коллективе», третий - как рядовой муниципальный служащий и тп – такие «галлюцинации» повышали эмоциональную убедительность
25 апреля 2025 года модераторы r/ChangeMyView обнародовали список подозрительных аккаунтов и черновик статьи «Can AI Change Your View?». Началась бурная дискуссия о границах этики: пользователи сочли эксперимент манипуляцией, университетская комиссия вынесла исследователям предупреждение, и теперь люди требуют изъять работу из публикационного процесса
В интернете будущего, нейронки будут спорить с нейронками, получается так
Благодаря жёсткой модерации и культуре вежливой полемики сабреддит давно служит «полигоном» для тренировки аргументации
Учёные провели секретный эксперимент на Reddit: они создали тринадцать аккаунтов-фейков с двумя координирующимися языковыми моделями на каждый аккаунт:
– Первая сканировала историю постов каждого оппонента, вычленяя вероятный возраст, пол, мировоззрение и эмоциональные триггеры
– Вторая, исходя из этого профиля, генерировала ответ, рассчитанный на максимальное изменение мнения
С ноября 2024 года боты оставили около полутора тысяч комментариев и получили более сотни «дельт» - свидетельств того, что авторы исходных постов действительно поменяли позицию. Для сравнения: среднестатистическому участнику сабреддита нужно в шесть раз больше попыток, чтобы добиться таких результатов
Эффективность объяснялась не только персонализацией - LLM «подстраивались» под стилистику Reddit, включая сленг («TL;DR» в начале, саркастические сноски в конце). При этом боты часто изобретали биографии: один позиционировал себя как «жертва изнасилования», другой - как «белая женщина в почти полностью чёрном коллективе», третий - как рядовой муниципальный служащий и тп – такие «галлюцинации» повышали эмоциональную убедительность
25 апреля 2025 года модераторы r/ChangeMyView обнародовали список подозрительных аккаунтов и черновик статьи «Can AI Change Your View?». Началась бурная дискуссия о границах этики: пользователи сочли эксперимент манипуляцией, университетская комиссия вынесла исследователям предупреждение, и теперь люди требуют изъять работу из публикационного процесса
В интернете будущего, нейронки будут спорить с нейронками, получается так
404 Media
Researchers Secretly Ran a Massive, Unauthorized AI Persuasion Experiment on Reddit Users
The researchers' bots generated identities as a sexual assault survivor, a trauma counselor, and a Black man opposed to Black Lives Matter.
На Llama Con показали официальное API Llama
Сразу на запуске будет доступен неплохой базовый набор фич — мультимодальные API, tool calling, structured outputs. Всё совместимо с API OpenAI, но при желании можно использовать и специальные SDK, доступные для Python и TypeScript. В придачу к этому обещают скоро запустить инференс на железе от Cerebras и Groq.
Есть и полноценные тулы для файнтюна моделей, причём не только тулзы для тюна, но и для оценки моделей. Но главная фишка — возможность скачивать свои затюненные модели, что убирает вендорлок и позволяет легко мигрировать между провайдерами.
API будет доступно в превью уже сегодня. На старте будет четыре модели — Llama 4 Scout и Maverick и Llama 3.3 8B и 70B.
@ai_newz
Сразу на запуске будет доступен неплохой базовый набор фич — мультимодальные API, tool calling, structured outputs. Всё совместимо с API OpenAI, но при желании можно использовать и специальные SDK, доступные для Python и TypeScript. В придачу к этому обещают скоро запустить инференс на железе от Cerebras и Groq.
Есть и полноценные тулы для файнтюна моделей, причём не только тулзы для тюна, но и для оценки моделей. Но главная фишка — возможность скачивать свои затюненные модели, что убирает вендорлок и позволяет легко мигрировать между провайдерами.
API будет доступно в превью уже сегодня. На старте будет четыре модели — Llama 4 Scout и Maverick и Llama 3.3 8B и 70B.
@ai_newz