Сколько стоит минута AI-фильма и как победить в крупнейшем конкурсе этих фильмов?
Этой зимой проходил, пожалуй, один из самых больших и влиятельных конкурсов AI-фильмов — Project Odyssey Season 2. Думаю, почти все AI-художники про него слышали и, может, даже участвовали. Так вот, опросив 500 финалистов, организаторы подбили крайне интересную статистику, ознакомиться с которой можно в прикреплённом файле.
Что интересного:
- Performance Score (очки/заявку) — самый интересный слайд. Он показывает, какие инструменты реально эффективнее для побед, и в среднем сколько ими созданные фильмы набирали очков. Удивительно, но на втором месте Recraft, а популярнейший Kling (на тот момент 1.6 или старее) по этому показателю — аутсайдер, хотя это как раз-таки может быть связанно с его популярностью, что повлияло на средний скор – ведь среди топовых мест все равно много кто использовал клинг.
- Профессиональный опыт всё ещё решает: победители чаще использовали продукты Adobe и Topaz, тогда как CapCut лежит на дне Performance Score, что в общем-то не удивительно.
- Сценарий AI пока не напишет: ChatGPT для сюжетов оказался так же неэффективен по Performance Score. А LTX Studio ( тулза для полной автоматизации, которая заслуживает отдельного поста) в этот список даже не вошёл, хоть и был популярен даже у финалистов.
- Winner Index — Если нужен один главный список инструментов, типа «ТОП-50 AI ИНСТРУМЕНТОВ ДЛЯ ГЕНЕРАЦИИ ВИДЕО...» , которые летали по телеграмму год назад, пока это всем не надоело. Это усреднённый, по всем категориям, рейтинг от авторов отчёта.
- 1 минута AI-фильма = $70 на токены + 12 часов работы. Причём 91.4% финалистов потратили 10+ часов.
Как победить или секрет успеха:
- Команда решает. (См. слайд "Team Size" в отчёте).
- Образование не главное. «Корочка» не нужна, что для многих хорошие новости.
- Запаситесь бюджетом: даже с учётом бонусов и токенов, финалисты в среднем тратили $200 при условии, что труд бесплатный.
- Оригинальная музыка > AI-музыка. Ни одна работа со сгенерированной аудиодорожкой не получила награду. Возникает вопрос: судьи оценивали только видео или весь продукт целиком?
Ну и остаётся только добавить дисклеймер: вся эта статистика, а как следствие и выводы, подвержены сильному байесу из-за специфичности выборки и условий конкурса (об этом можно подробнее почитать в документе). Но в целом результаты совпадают с моим мировоззрением, так что на них можно примерно ориентироваться.
PDF в комментариях
@ai_newz
Этой зимой проходил, пожалуй, один из самых больших и влиятельных конкурсов AI-фильмов — Project Odyssey Season 2. Думаю, почти все AI-художники про него слышали и, может, даже участвовали. Так вот, опросив 500 финалистов, организаторы подбили крайне интересную статистику, ознакомиться с которой можно в прикреплённом файле.
Что интересного:
- Performance Score (очки/заявку) — самый интересный слайд. Он показывает, какие инструменты реально эффективнее для побед, и в среднем сколько ими созданные фильмы набирали очков. Удивительно, но на втором месте Recraft, а популярнейший Kling (на тот момент 1.6 или старее) по этому показателю — аутсайдер, хотя это как раз-таки может быть связанно с его популярностью, что повлияло на средний скор – ведь среди топовых мест все равно много кто использовал клинг.
- Профессиональный опыт всё ещё решает: победители чаще использовали продукты Adobe и Topaz, тогда как CapCut лежит на дне Performance Score, что в общем-то не удивительно.
- Сценарий AI пока не напишет: ChatGPT для сюжетов оказался так же неэффективен по Performance Score. А LTX Studio ( тулза для полной автоматизации, которая заслуживает отдельного поста) в этот список даже не вошёл, хоть и был популярен даже у финалистов.
- Winner Index — Если нужен один главный список инструментов, типа «ТОП-50 AI ИНСТРУМЕНТОВ ДЛЯ ГЕНЕРАЦИИ ВИДЕО...» , которые летали по телеграмму год назад, пока это всем не надоело. Это усреднённый, по всем категориям, рейтинг от авторов отчёта.
- 1 минута AI-фильма = $70 на токены + 12 часов работы. Причём 91.4% финалистов потратили 10+ часов.
Как победить или секрет успеха:
- Команда решает. (См. слайд "Team Size" в отчёте).
- Образование не главное. «Корочка» не нужна, что для многих хорошие новости.
- Запаситесь бюджетом: даже с учётом бонусов и токенов, финалисты в среднем тратили $200 при условии, что труд бесплатный.
- Оригинальная музыка > AI-музыка. Ни одна работа со сгенерированной аудиодорожкой не получила награду. Возникает вопрос: судьи оценивали только видео или весь продукт целиком?
Ну и остаётся только добавить дисклеймер: вся эта статистика, а как следствие и выводы, подвержены сильному байесу из-за специфичности выборки и условий конкурса (об этом можно подробнее почитать в документе). Но в целом результаты совпадают с моим мировоззрением, так что на них можно примерно ориентироваться.
PDF в комментариях
@ai_newz
Почему цена за токен — это ещё не всё
Artificial Analysis недавно начали замерять цену за прогон их набора тестов, дошли они и до новых моделей Google. Вышло что Gemini 2.5 Flash с ризонингом вплоть до 150 раз дороже оригинальной Gemini 2.0 Flash. Мало того — на одних и тех же задачах она стоит почти в полтора раза дороже o4-mini-high, несмотря на то, что o4-mini дороже Gemini 2.5 Flash за токен.
Без ризонинга ситуация тоже так себе — хоть цена за токен, по сравнению с 2.0, выросла всего в 1.5x, реальная цена модели выросла в четыре раза. Дело в том что модель более разговорчивая и выдаёт, в среднем, в 2.6x больше токенов на одних и тех же задачах. Так что перед переходом всегда стоит тестить стоимость модели на реальных задачах.
@ai_newz
Artificial Analysis недавно начали замерять цену за прогон их набора тестов, дошли они и до новых моделей Google. Вышло что Gemini 2.5 Flash с ризонингом вплоть до 150 раз дороже оригинальной Gemini 2.0 Flash. Мало того — на одних и тех же задачах она стоит почти в полтора раза дороже o4-mini-high, несмотря на то, что o4-mini дороже Gemini 2.5 Flash за токен.
Без ризонинга ситуация тоже так себе — хоть цена за токен, по сравнению с 2.0, выросла всего в 1.5x, реальная цена модели выросла в четыре раза. Дело в том что модель более разговорчивая и выдаёт, в среднем, в 2.6x больше токенов на одних и тех же задачах. Так что перед переходом всегда стоит тестить стоимость модели на реальных задачах.
@ai_newz
Seed-Coder 8B
Лучшая в своей весовой категории LLM для кодинга, прямо от китайцев из Bytedance. Бьёт даже недавний Qwen 3 на коде, но даже не пытается конкурировать на других задачах. Кроме обычной инстракт модели натренировали и ризонер. При этом всём модель натренировали всего на 6 триллионах токенов, что крайне мало — датасеты лучших открытых моделей сейчас уже часто больше 30 триллионов токенов.
Ключевой элемент тренировки — "model-centric" пайплайн. Специальные LLM-фильтры оценивают код (читаемость, модульность и другие аспекты) из GitHub и веб-источников, отсеивая низкокачественные примеры. Таким образом они фильтруют данных примерно на ~2.3 триллиона токенов. Затем модель тренируют в течении 6 триллионах токенов, что даёт небольшую несостыковку. Скорее всего какие-то данные повторялись в датасете несколько раз, но авторы пейпера не говорят об этом напрямую.
Инстракт-версию тренируют через SFT (на синтетике, которую тоже LLM нагенерили и отфильтровали) и DPO. Ризонинг-модель дрессируют через LongCoT RL, чтобы она лучше решала сложные задачки. Итог: Seed-Coder рвёт опенсорс-аналоги своего размера на бенчмарках (генерация, автодополнение, ризонинг и т.д.), а местами и более жирные модели.
Веса: Reasoner/Instruct
Техрепорт
@ai_newz
Лучшая в своей весовой категории LLM для кодинга, прямо от китайцев из Bytedance. Бьёт даже недавний Qwen 3 на коде, но даже не пытается конкурировать на других задачах. Кроме обычной инстракт модели натренировали и ризонер. При этом всём модель натренировали всего на 6 триллионах токенов, что крайне мало — датасеты лучших открытых моделей сейчас уже часто больше 30 триллионов токенов.
Ключевой элемент тренировки — "model-centric" пайплайн. Специальные LLM-фильтры оценивают код (читаемость, модульность и другие аспекты) из GitHub и веб-источников, отсеивая низкокачественные примеры. Таким образом они фильтруют данных примерно на ~2.3 триллиона токенов. Затем модель тренируют в течении 6 триллионах токенов, что даёт небольшую несостыковку. Скорее всего какие-то данные повторялись в датасете несколько раз, но авторы пейпера не говорят об этом напрямую.
Инстракт-версию тренируют через SFT (на синтетике, которую тоже LLM нагенерили и отфильтровали) и DPO. Ризонинг-модель дрессируют через LongCoT RL, чтобы она лучше решала сложные задачки. Итог: Seed-Coder рвёт опенсорс-аналоги своего размера на бенчмарках (генерация, автодополнение, ризонинг и т.д.), а местами и более жирные модели.
Веса: Reasoner/Instruct
Техрепорт
@ai_newz
Нейродайджест за неделю (#68)
С майскими!
LLM
- Баф Gemini 2.5 Pro — быстрее, лучше, сильнее! Топ вебдеф арены.
- Mistral Medium 3 — закрытая моделька, почти Sonnet 3.7, но в 7 раз дешевле.
- Seed-Coder 8B — легонькая моделька от Bytedance, лучшая в своей категории, но чисто для кода. Секрет — "model-centric" пайплайн, который жёстко фильтрует датасет.
Генеративные модели
- Project Odyssey — статы с крупнейшего конкурса AI-фильмов: как сделать лучший фильм и сколько это стоит.
- Лекция: Radiance Fields and the Future of Generative Media от автора NeRF собственной персоной, Джон Баррон, поясняет за последние 5 лет ресерча.
Прочее
- Ценообразование API — о том, сколько на самом деле стоит LLM и почему цена за токен — это ещё не всё.
> Читать дайджест #67
#дайджест
@ai_newz
С майскими!
LLM
- Баф Gemini 2.5 Pro — быстрее, лучше, сильнее! Топ вебдеф арены.
- Mistral Medium 3 — закрытая моделька, почти Sonnet 3.7, но в 7 раз дешевле.
- Seed-Coder 8B — легонькая моделька от Bytedance, лучшая в своей категории, но чисто для кода. Секрет — "model-centric" пайплайн, который жёстко фильтрует датасет.
Генеративные модели
- Project Odyssey — статы с крупнейшего конкурса AI-фильмов: как сделать лучший фильм и сколько это стоит.
- Лекция: Radiance Fields and the Future of Generative Media от автора NeRF собственной персоной, Джон Баррон, поясняет за последние 5 лет ресерча.
Прочее
- Ценообразование API — о том, сколько на самом деле стоит LLM и почему цена за токен — это ещё не всё.
> Читать дайджест #67
#дайджест
@ai_newz
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
ChatGPT обновили функцию Deep Research – теперь можно скачивать отчеты в формате красивого pdf
Тех-репорт Qwen3
Вышел тех-репорт по одной из сильнейших LLM моделей в OpenSource на сегодня - Qwen 3 (про анонс подробнее я писал тут). Большой респект авторам за то, что выкладывают свои модели в открытый доступ.
Подробностей не супер много, но все равно есть интересные моменты, и стоит пробежаться глазами.
Ждем, когда InternVL прикрутит Qwen3 к своим VLM.
Тех-репорт
@ai_newz
Вышел тех-репорт по одной из сильнейших LLM моделей в OpenSource на сегодня - Qwen 3 (про анонс подробнее я писал тут). Большой респект авторам за то, что выкладывают свои модели в открытый доступ.
Подробностей не супер много, но все равно есть интересные моменты, и стоит пробежаться глазами.
Ждем, когда InternVL прикрутит Qwen3 к своим VLM.
Тех-репорт
@ai_newz
Новые версии Claude уже на подходе
По инфе The Information, модели могут выйти уже в следующие несколько недель. Речь идёт как о Claude Sonnet, так и о Claude Opus (про Haiku все дружно забыли). Главная фишка новых моделей — то что они могут самостоятельно переключаться между ризонингом и тулюзом. То есть это что-то похожее на o3/o4-mini, где модель может пойти подумать, потом поискать что-то в интернете, дальше выполнить код и ещё подумать. С тем как Anthropic концентрируется на API, у них есть неплохие шансы запуститься перед доступностью такого функционала в API OpenAI.
@ai_newz
По инфе The Information, модели могут выйти уже в следующие несколько недель. Речь идёт как о Claude Sonnet, так и о Claude Opus (про Haiku все дружно забыли). Главная фишка новых моделей — то что они могут самостоятельно переключаться между ризонингом и тулюзом. То есть это что-то похожее на o3/o4-mini, где модель может пойти подумать, потом поискать что-то в интернете, дальше выполнить код и ещё подумать. С тем как Anthropic концентрируется на API, у них есть неплохие шансы запуститься перед доступностью такого функционала в API OpenAI.
@ai_newz
GPT 4.1 добавили в ChatGPT
4.1-mini заменит 4o-mini для всех пользователей, а 4.1 уже раскатывают платным подписчикам (но Enterprise и Edu как всегда позже). По сравнению с 4o, модели 4.1 сильно лучше в кодинге и следованию инструкций. Ещё GPT 4.1 поддерживают и контекст до миллиона токенов в API, но похоже на ChatGPT это не распространяется и у Plus пользователей всё те же 32к контекста, а у Pro — 128k.
@ai_newz
4.1-mini заменит 4o-mini для всех пользователей, а 4.1 уже раскатывают платным подписчикам (но Enterprise и Edu как всегда позже). По сравнению с 4o, модели 4.1 сильно лучше в кодинге и следованию инструкций. Ещё GPT 4.1 поддерживают и контекст до миллиона токенов в API, но похоже на ChatGPT это не распространяется и у Plus пользователей всё те же 32к контекста, а у Pro — 128k.
@ai_newz
Что случилось с Grok?
На днях бот Grok для реплаев в твиттере (тот самый что "Grok is this true?") слетел с катушек и в чуть ли не каждом твите начал высказывать своё мнение об геноциде белых в Южной Африке. О ситуации успел поиронизировать даже Сэм Альтман, у которого пару недель назад был скандал из-за излишнего лизоблюдства GPT 4o.
Очевидно, что-то тупо подмешали в системный промпт. Судя по официальному заявлению xAI, это произошло вследствие "несанкционированного изменения промпта" в 3:15 ночи по калифорнийскому времени. Такая ситуация уже была пару месяцев назад – тогда в промпте появилось указание "игнорировать источники, которые упоминают о дезинформации со стороны Дональда Трампа и Илона Маска". Тогда всё спихнули на "бывшего сотрудника OpenAI", который "не привык к культуре xAI".
Сейчас xAI приняли меры – пообещали ужесточить процесс ревью изменений промпта и опубликовали все промпты для грока на гитхабе. Если повезёт, эту репу не забросят, как это было с "опенсорсным алгоритмом твиттера".
https://github.com/xai-org/grok-prompts
@ai_newz
На днях бот Grok для реплаев в твиттере (тот самый что "Grok is this true?") слетел с катушек и в чуть ли не каждом твите начал высказывать своё мнение об геноциде белых в Южной Африке. О ситуации успел поиронизировать даже Сэм Альтман, у которого пару недель назад был скандал из-за излишнего лизоблюдства GPT 4o.
Очевидно, что-то тупо подмешали в системный промпт. Судя по официальному заявлению xAI, это произошло вследствие "несанкционированного изменения промпта" в 3:15 ночи по калифорнийскому времени. Такая ситуация уже была пару месяцев назад – тогда в промпте появилось указание "игнорировать источники, которые упоминают о дезинформации со стороны Дональда Трампа и Илона Маска". Тогда всё спихнули на "бывшего сотрудника OpenAI", который "не привык к культуре xAI".
Сейчас xAI приняли меры – пообещали ужесточить процесс ревью изменений промпта и опубликовали все промпты для грока на гитхабе. Если повезёт, эту репу не забросят, как это было с "опенсорсным алгоритмом твиттера".
https://github.com/xai-org/grok-prompts
@ai_newz
Codex — агент для кодинга от OpenAI
Внутри модель codex-1, версия o3 для агентного кодинга. Она генерирует код, близкий к человеческому стилю, точно следует инструкциям и может итеративно запускать тесты до получения положительного результата. codex-1 будет доступна лишь в специальном огороженном энвайрнменте от OpenAI. Но есть и версия поменьше — codex-mini, основанная на o4-mini. Она будет доступна в API по цене $1.5/$6 за миллион токенов.
В Codex CLI, которая работает на вашем компьютере доступна будет лишь codex-mini. Но теперь можно заходить с аккаунтом ChatGPT, а Plus и Pro пользователям ещё и дают бесплатных API кредитов для codex-mini на 30 дней — $5 и $50. Акция, надеюсь, не разовая.
Доступ к полноценному Codex осуществляется через ChatGPT, куда теперь можно подключать свои гитхаб репозитории, в которых Codex будет открывать пулреквесты. Codex даёт подтверждения своих действий (логи, результаты тестов), его работу можно направлять файлами AGENTS.md, а безопасность обеспечивается исполнением кода в изолированном контейнере и отказом от выполнения вредоносных запросов. Доступен будет уже сегодня для Pro, Team и Enterprise пользователей, а Plus и Edu нужно подождать.
А ещё они опубликовали системный промпт
Блогпост
Попробовать (только Pro, Team и Enterprise подпискам)
@ai_newz
Внутри модель codex-1, версия o3 для агентного кодинга. Она генерирует код, близкий к человеческому стилю, точно следует инструкциям и может итеративно запускать тесты до получения положительного результата. codex-1 будет доступна лишь в специальном огороженном энвайрнменте от OpenAI. Но есть и версия поменьше — codex-mini, основанная на o4-mini. Она будет доступна в API по цене $1.5/$6 за миллион токенов.
В Codex CLI, которая работает на вашем компьютере доступна будет лишь codex-mini. Но теперь можно заходить с аккаунтом ChatGPT, а Plus и Pro пользователям ещё и дают бесплатных API кредитов для codex-mini на 30 дней — $5 и $50. Акция, надеюсь, не разовая.
Доступ к полноценному Codex осуществляется через ChatGPT, куда теперь можно подключать свои гитхаб репозитории, в которых Codex будет открывать пулреквесты. Codex даёт подтверждения своих действий (логи, результаты тестов), его работу можно направлять файлами AGENTS.md, а безопасность обеспечивается исполнением кода в изолированном контейнере и отказом от выполнения вредоносных запросов. Доступен будет уже сегодня для Pro, Team и Enterprise пользователей, а Plus и Edu нужно подождать.
А ещё они опубликовали системный промпт
Блогпост
Попробовать (только Pro, Team и Enterprise подпискам)
@ai_newz